返回顶部
首页 > 资讯 > 后端开发 > Python >【python爬虫学习 】python
  • 423
分享到

【python爬虫学习 】python

爬虫python 2023-01-31 08:01:33 423人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual c++ 14.0 is required. 实例demo教程 中文教程文档 第一步:创建项目目录

  1. pip 安装 pip install scrapy
  2. 可能的问题:
    问题/解决:error: Microsoft Visual c++ 14.0 is required.
  3. 实例demo教程 中文教程文档
    第一步:创建项目目录

    scrapy startproject tutorial

    第二步:进入tutorial创建spider爬虫

    scrapy genspider baidu www.baidu.com

    第三步:创建存储容器,复制项目下的items.py重命名为BaiduItems

    # -*- coding: utf-8 -*-
    
    # Define here the models for your scraped items
    #
    # See documentation in:
    # https://doc.scrapy.org/en/latest/topics/items.html
    
    import scrapy
    
    class BaiduItems(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        title = scrapy.Field()
        link = scrapy.Field()
        desc = scrapy.Field()
        pass

    第四步:修改spiders/baidu.py xpath提取数据

    # -*- coding: utf-8 -*-
    import scrapy
    # 引入数据容器
    from tutorial.BaiduItems import BaiduItems
    
    class BaiduSpider(scrapy.Spider):
        name = 'baidu'
        allowed_domains = ['www.readingbar.net']
        start_urls = ['Http://www.readingbar.net/']
        def parse(self, response):
            for sel in response.xpath('//ul/li'):
                item = BaiduItems()
                item['title'] = sel.xpath('a/text()').extract()
                item['link'] = sel.xpath('a/@href').extract()
                item['desc'] = sel.xpath('text()').extract()
                yield item
            pass

    第五步:解决百度首页网站抓取空白问题,设置setting.py

    # 设置用户代理
    USER_AGENT = 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
    
    # 解决 robots.txt 相关debug
    ROBOTSTXT_OBEY = False
    # scrapy 解决数据保存乱码问题
    FEED_EXPORT_ENCODING = 'utf-8'

    最后一步:开始爬取数据命令并保存数据为指定的文件
    执行的时候可能报错:No module named 'win32api' 可以下载指定版本安装

    scrapy crawl baidu -o baidu.JSON
  4. 深度爬取百度首页及导航菜单相关页内容

    # -*- coding: utf-8 -*-
    import scrapy
    
    from scrapyProject.BaiduItems import BaiduItems
    
    class BaiduSpider(scrapy.Spider):
        name = 'baidu'
        # 由于tab包含其他域名,需要添加域名否则无法爬取
        allowed_domains = [
            'www.baidu.com',
            'v.baidu.com',
            'map.baidu.com',
            'news.baidu.com',
            'tieba.baidu.com',
            'xueshu.baidu.com'
        ]
        start_urls = ['https://www.baidu.com/']
        def parse(self, response):
            item = BaiduItems()
            item['title'] = response.xpath('//title/text()').extract()
            yield item
            for sel in response.xpath('//a[@class="mnav"]'):
                item = BaiduItems()
                item['nav'] = sel.xpath('text()').extract()
                item['href'] = sel.xpath('@href').extract()
                yield item
                # 根据提取的nav地址建立新的请求并执行回调函数
                yield scrapy.Request(item['href'][0],callback=self.parse_newpage)
            pass
        # 深度提取tab网页标题信息
        def parse_newpage(self, response):
            item = BaiduItems()
            item['title'] = response.xpath('//title/text()').extract()
            yield item
            pass
  5. 绕过登录进行爬取
    a.解决图片验证 pytesseract

--结束END--

本文标题: 【python爬虫学习 】python

本文链接: https://lsjlt.com/news/193430.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 【python爬虫学习 】python
    pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is required. 实例demo教程 中文教程文档 第一步:创建项目目录 ...
    99+
    2023-01-31
    爬虫 python
  • Python爬虫学习路线
    (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Pytho...
    99+
    2023-01-31
    爬虫 路线 Python
  • python爬虫学习三:python正则
    python爬虫学习三:python正则表达式自己写的一个爬虫:https://github.com/qester/wordpres_Crawler1、正则表达式基础a、正则表达式的大致匹配过程:1、依次拿出表达式和文本中的字符比较2、如果...
    99+
    2023-01-31
    爬虫 正则 python
  • 零基础学习Python爬虫
    目录爬虫为什么我们要使用爬虫爬虫准备工作爬虫项目讲解代码分析1.爬取网页2.逐一解析数据3.保存数据讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(...
    99+
    2024-04-02
  • Python爬虫框架Scrapy 学习
    开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...
    99+
    2023-01-31
    爬虫 框架 Python
  • Python 爬虫学习笔记之单线程爬虫
    介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像...
    99+
    2022-06-04
    爬虫 单线程 学习笔记
  • Python 爬虫学习笔记之多线程爬虫
    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊。其实我个人认...
    99+
    2022-06-04
    爬虫 之多 线程
  • 学习python爬虫能做什么
    这篇文章主要介绍“学习python爬虫能做什么”,在日常操作中,相信很多人在学习python爬虫能做什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”学习python爬虫能做什么”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-27
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • 爬虫学习
    Jupyter环境安装 安装Anaconda(集成环境), 安装成功后能够提供一种基于浏览器的可视化工具 ---Jupyter. 什么是jupyter notebook: Jupyter Notebook是以网页的形式打开,可以在网页页面...
    99+
    2023-01-30
    爬虫
  • 【Python学习】爬虫报错处理bs4.
    【BUG回顾】 在学习Python爬虫时,运Pycharm中的文件出现了这样的报错: bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requ...
    99+
    2023-01-31
    爬虫 报错 Python
  • 零基础怎么学习Python爬虫
    本篇内容主要讲解“零基础怎么学习Python爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“零基础怎么学习Python爬虫”吧!  零基础如何学爬虫技术?对于迷茫的初学者来说,爬虫技术起步学习...
    99+
    2023-06-01
  • python爬虫Mitmproxy安装使用学习笔记
    目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...
    99+
    2024-04-02
  • Python爬虫学习之requests的使用教程
    目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...
    99+
    2024-04-02
  • 学习网络爬虫python会不会很难
    这篇文章给大家分享的是有关学习网络爬虫python会不会很难的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,Python对代码格式...
    99+
    2023-06-14
  • 学习Python爬虫前必掌握知识点
    目录常见的协议常见的请求方式常见的请求头参数:常见的相应状态码HTTP的请求相应过程使用浏览器进行网站分析 session 与cookie常见的协议 http和https ...
    99+
    2024-04-02
  • Python爬虫练习汇总
    目录一、 软件配置二、爬取南阳理工OJ题目(一)页面分析(二)代码编写三、爬取学校信息通知(一)页面分析(二)代码编写一、 软件配置 安装必备爬虫环境软件: python 3.8pi...
    99+
    2024-04-02
  • 『爬虫』学习记录
    ## 在学习爬虫中遇到很多坑,写出来供道友参考 出现诸如以下错误     ModuleNotFoundError: No module named 'js2xml'     NameError: name 'js2xml' is no...
    99+
    2023-01-31
    爬虫
  • 好程序员Python学习路线之python爬虫入门
      好程序员Python学习路线之python爬虫入门,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yaho...
    99+
    2023-06-02
  • python爬虫要学多久
    学习Python爬虫的时间因人而异,取决于个人的学习能力、学习方法、学习时间和经验等因素。以下是一些建议,帮助您制定学习Python爬虫的时间计划。1. 基础知识学习(1-2周):在开始学习Python爬虫之前,建议先掌握Python的基础...
    99+
    2023-10-25
    python 爬虫
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作