返回顶部
首页 > 资讯 > 后端开发 > Python >我的爬虫自学之旅
  • 677
分享到

我的爬虫自学之旅

爬虫之旅 2023-01-30 22:01:02 677人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

电子版参考书:https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 注:仅限网上学习交流,如有侵权请联系我 我们一起学习┏(^0^)┛ 自我介绍,我是一个python迈过基础游荡在爬虫自学之路的一

电子版参考书:https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 注:仅限网上学习交流,如有侵权请联系我

我们一起学习┏(^0^)┛

自我介绍,我是一个python迈过基础游荡在爬虫自学之路的一只小蚂蚁。在计算机编程漫长枯燥的道路上,很多技术博客帮助了我,心怀感激,想把自己的经历也记录下来,这是我的第一篇博客,如有瑕疵请多包涵,谢谢~对了,如果你也是自学入门的,来试试hackerrank.com,我只是需要一个队友~你会有不一样的感受的^_^

 

 

安装第三方库经常报错:error: Microsoft Visual c++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": Http://landinghub.visualstudio.com/visual-cpp-build-tools

下载:https://download.microsoft.com/download/5/f/7/5f7acaeb-8363-451f-9425-68a90f98b238/visualcppbuildtools_full.exe?fixForIE=.exe.       安装挺久,但一劳永逸有木有哈哈?

安装selenium,chromedriver.exe地址:http://chromedriver.storage.Googleapis.com/index.html?path=2.41/()

我的是windows系统,文件放在Python/Scripts目录下,不用配置环境变量。本文只用Chrome爬虫。

 照教程爬了猫眼排行榜还是啥也不懂的我,接了朋友给的艰巨任务:智联招聘(【内牛满面】)

所学库不多,但好歹迈出了第一步。对代码运行结果也有困惑,希望交流~

 

from urllib.parse import urlencode
import requests
import JSON
import csv
import time


def get_one_page(page):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    params = {
        'start': '',
        'pageSize': '60',
        'cityId': '489',
        'workExperience': '-1',
        'education': '-1',
        'companyType': '-1',
        'employmentType': '-1',
        'jobWelfareTag': '-1',
        'kw': '数据分析师',
        'kt': '3',
        'lastUrlQuery': {"p": page,
                         "pageSize": "60",
                         "jl": "489",
                         "kw": "数据分析师",
                         "kt": "3"
                         }
    }
    base_url = 'https://fe-api.zhaopin.com/c/i/sou?'
    url = base_url + urlencode(params)
    # print(url)

    response = requests.get(url, headers=headers)
    try:
        if response.status_code == 200:
            return response.json()
    except Exception as e:
        print('Error:', e)


@get_one_page
def func(page):
    if page == 0:
        get_one_page().params.pop('start')
        get_one_page().params['lastUrlQuery'].pop('p')
    else:
        get_one_page().params['start'] = 60 * (page - 1)
    return get_one_page()


def parse_page(json):
    if json.get('data'):
        data = json.get('data').get('results')
        data_list = []
        for item in data:
            job_name = item.get('jobName')
            salary = item.get('salary')
            company = item.get('company').get('name')
            welfare = item.get('welfare')
            city = item.get('city').get('name')
            work = item.get('workingExp').get('name')
            edu_level = item.get('eduLevel').get('name')
            data_list.append([job_name, company, welfare, salary, city, work, edu_level])
        print(data_list)
        return data_list


def save_data(datas):
    with open('data_zhilian_findjob.csv', 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['job_name', 'company', 'welfare,salary', 'city', 'workingExp', 'edu_level'])
        for row in datas:
            writer.writerow(row)


def main():
    for page in range(20):
        json = get_one_page(page)
        data = parse_page(json)
        # print(data)
        time.sleep(0.8)
        save_data(data)


if __name__ == '__main__':
    main()

 

--结束END--

本文标题: 我的爬虫自学之旅

本文链接: https://lsjlt.com/news/179714.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 我的爬虫自学之旅
    电子版参考书:https://pan.baidu.com/s/15R08yEjLDj8FxrBwnUaTyA 注:仅限网上学习交流,如有侵权请联系我 我们一起学习┏(^0^)┛ 自我介绍,我是一个python迈过基础游荡在爬虫自学之路的一...
    99+
    2023-01-30
    爬虫 之旅
  • 爬虫学习之第四章爬虫进阶之多线程爬虫
    有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率...
    99+
    2023-01-31
    爬虫 进阶 第四章
  • Python爬虫之爬取我爱我家二手房数据
    目录一、问题说明二、解决方法三、完整代码四、数据展示一、问题说明 首先,运行下述代码,复现问题: # -*-coding:utf-8-*- import re import r...
    99+
    2024-04-02
  • Python 爬虫学习笔记之单线程爬虫
    介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像...
    99+
    2022-06-04
    爬虫 单线程 学习笔记
  • Python 爬虫学习笔记之多线程爬虫
    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊。其实我个人认...
    99+
    2022-06-04
    爬虫 之多 线程
  • Python爬虫之如何爬取我爱我家二手房数据
    这篇文章给大家分享的是有关Python爬虫之如何爬取我爱我家二手房数据的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、问题说明首先,运行下述代码,复现问题:# -*-coding:utf-8-*-im...
    99+
    2023-06-15
  • Python爬虫实战之用selenium爬取某旅游网站
    目录一、selenium实战二、打开艺龙网三、精确目标四、成功结语一、selenium实战 这里我们只会用到很少的selenium语法,我这里就不补充别的用法了,以实战为目的 二、打开艺龙网 可以直接点击这里进入:艺...
    99+
    2022-06-02
    Python selenium爬取网站 python爬虫
  • 如何自学Python爬虫技术
    作为程序员或者软件测试员们的一员,置信大家一定都听说过python语言。Python语言这两年是越来越火了,它渐渐崛起也是有缘由的。比如市场需求、入门简单易学、支持多种语言……当然这些都是很官方的。说白了,就是写个web服务,可以用pyth...
    99+
    2023-01-31
    爬虫 技术 Python
  • 开始我的python之旅--Python
    Python简介Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。现在,全世界差不多有600多种编程语言,但流行的编程语言也就那么20来种。如果你听说过TIOBE排...
    99+
    2023-01-31
    之旅 python Python
  • Python爬虫学习之requests的使用教程
    目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...
    99+
    2024-04-02
  • python的学习之旅
        首先先介绍下本人,本人名叫杜邱,别名也叫故都的秋,网络工程专业毕业,现就职一家电子商务公司,已经三年了,起初从一个小小的网管做起,一台路由器,一台交换机,下面连着50几台电脑,三年过去了,慢慢的也在成长,装过监控,管过服务器,弄过网...
    99+
    2023-01-31
    之旅 python
  • 就想写个爬虫,我到底要学多少东西啊?
    当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个...
    99+
    2023-06-02
  • ChatGPT帮我自动编写Python爬虫脚本的详细过程
    目录1、爬取知乎上的专栏文章2. 爬取京东某商品的评论3.继续更多的测试都知道最近ChatGPT聊天机器人爆火,我也想方设法注册了账号,据说后面要收费了。 ChatGPT是一种基于大...
    99+
    2023-02-16
    ChatGPT自动编写 Python 爬虫脚本 ChatGPT编写 Python 爬虫
  • 爬虫学习之第一章网络请求
    爬虫的实际例子: 搜索引擎(百度、谷歌、360搜索等)。 伯乐在线。 惠惠购物助手。 数据分析与研究(数据冰山知乎专栏)。 抢票软件等。 什么是网络爬虫: 通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据...
    99+
    2023-01-31
    爬虫 网络
  • 爬虫学习之第三章数据存储
    什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存...
    99+
    2023-01-31
    爬虫 第三章 数据存储
  • 运维学python之爬虫中级篇(九)Py
    最近因为年底,连续两个项目要投产上线,又赶上公司年会,忙的要死,更新有些慢,见谅。今天要说一说python如何对mysql进行操作。在 Python3.x 版本中用于连接 MySQL 服务器的库与Python2中使用的mysqldb有所不同...
    99+
    2023-01-31
    爬虫 运维学 python
  • 运维学python之爬虫中级篇(七)Sq
    前文已经讲过无数据库版本操作(csv,json),今天我们要开始讲有数据库版本的操作,首先就是sqlite3。 SQLite是一个C库,它提供了一个轻量级的基于磁盘的数据库,它不需要单独的服务器进程,并且允许使用SQL查询语言的非标准格式...
    99+
    2023-01-31
    爬虫 运维学 python
  • 学习爬虫的第一天
    爬虫是什么? 网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息 获取网页数据方式: 1、浏览器访问——下载网页数据 2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本...
    99+
    2023-01-31
    爬虫
  • python实现爬虫统计学校BBS男女比例之多线程爬虫(二)
    接着第一篇继续学习。 一、数据分类 正确数据:id、性别、活动时间三者都有 放在这个文件里file1 = 'ruisi\correct%s-%s.txt' % (startNum, endNum) 数据格式...
    99+
    2022-06-04
    爬虫 之多 线程
  • Python爬虫之自动爬取某车之家各车销售数据
    目录一、目标网页分析二、数据请求三、数据解析四、数据存储五、采集结果预览一、目标网页分析 目标网站是某车之家关于品牌汽车车型的口碑模块相关数据,比如我们演示的案例奥迪Q5L的口碑页面...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作