首页 > 资讯 > 后端开发 > Python >我的爬虫自学之旅

677

分享到

我的爬虫自学之旅

爬虫之旅 2023-01-30 22:01:02 677人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

电子版参考书：https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 注：仅限网上学习交流，如有侵权请联系我我们一起学习┏(＾0＾)┛ 自我介绍，我是一个python迈过基础游荡在爬虫自学之路的一

电子版参考书：https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 注：仅限网上学习交流，如有侵权请联系我

我们一起学习┏(＾0＾)┛

自我介绍，我是一个python迈过基础游荡在爬虫自学之路的一只小蚂蚁。在计算机编程漫长枯燥的道路上，很多技术博客帮助了我，心怀感激，想把自己的经历也记录下来，这是我的第一篇博客，如有瑕疵请多包涵，谢谢~对了，如果你也是自学入门的，来试试hackerrank.com，我只是需要一个队友~你会有不一样的感受的^_^

安装第三方库经常报错：error: Microsoft Visual c++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": Http://landinghub.visualstudio.com/visual-cpp-build-tools

下载：https://download.microsoft.com/download/5/f/7/5f7acaeb-8363-451f-9425-68a90f98b238/visualcppbuildtools_full.exe?fixForIE=.exe. 安装挺久，但一劳永逸有木有哈哈？

安装selenium，chromedriver.exe地址：http://chromedriver.storage.Googleapis.com/index.html?path=2.41/（）

我的是windows系统，文件放在Python/Scripts目录下，不用配置环境变量。本文只用Chrome爬虫。

照教程爬了猫眼排行榜还是啥也不懂的我，接了朋友给的艰巨任务：智联招聘（【内牛满面】）

所学库不多，但好歹迈出了第一步。对代码运行结果也有困惑，希望交流~

from urllib.parse import urlencode
import requests
import JSON
import csv
import time


def get_one_page(page):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    params = {
        'start': '',
        'pageSize': '60',
        'cityId': '489',
        'workExperience': '-1',
        'education': '-1',
        'companyType': '-1',
        'employmentType': '-1',
        'jobWelfareTag': '-1',
        'kw': '数据分析师',
        'kt': '3',
        'lastUrlQuery': {"p": page,
                         "pageSize": "60",
                         "jl": "489",
                         "kw": "数据分析师",
                         "kt": "3"
                         }
    }
    base_url = 'https://fe-api.zhaopin.com/c/i/sou?'
    url = base_url + urlencode(params)
    # print(url)

    response = requests.get(url, headers=headers)
    try:
        if response.status_code == 200:
            return response.json()
    except Exception as e:
        print('Error:', e)


@get_one_page
def func(page):
    if page == 0:
        get_one_page().params.pop('start')
        get_one_page().params['lastUrlQuery'].pop('p')
    else:
        get_one_page().params['start'] = 60 * (page - 1)
    return get_one_page()


def parse_page(json):
    if json.get('data'):
        data = json.get('data').get('results')
        data_list = []
        for item in data:
            job_name = item.get('jobName')
            salary = item.get('salary')
            company = item.get('company').get('name')
            welfare = item.get('welfare')
            city = item.get('city').get('name')
            work = item.get('workingExp').get('name')
            edu_level = item.get('eduLevel').get('name')
            data_list.append([job_name, company, welfare, salary, city, work, edu_level])
        print(data_list)
        return data_list


def save_data(datas):
    with open('data_zhilian_findjob.csv', 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['job_name', 'company', 'welfare,salary', 'city', 'workingExp', 'edu_level'])
        for row in datas:
            writer.writerow(row)


def main():
    for page in range(20):
        json = get_one_page(page)
        data = parse_page(json)
        # print(data)
        time.sleep(0.8)
        save_data(data)


if __name__ == '__main__':
    main()

您可能感兴趣的文档:

--结束END--

本文标题: 我的爬虫自学之旅

本文链接: https://lsjlt.com/news/179714.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

我的爬虫自学之旅

我的爬虫自学之旅

爬虫学习之第四章爬虫进阶之多线程爬虫

Python爬虫之爬取我爱我家二手房数据

Python 爬虫学习笔记之单线程爬虫

Python 爬虫学习笔记之多线程爬虫

Python爬虫之如何爬取我爱我家二手房数据

Python爬虫实战之用selenium爬取某旅游网站

如何自学Python爬虫技术

开始我的python之旅--Python

Python爬虫学习之requests的使用教程

python的学习之旅

就想写个爬虫，我到底要学多少东西啊？

ChatGPT帮我自动编写Python爬虫脚本的详细过程

爬虫学习之第一章网络请求

爬虫学习之第三章数据存储

运维学python之爬虫中级篇（九）Py

运维学python之爬虫中级篇（七）Sq

学习爬虫的第一天

python实现爬虫统计学校BBS男女比例之多线程爬虫（二）

Python爬虫之自动爬取某车之家各车销售数据

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义