返回顶部
首页 > 资讯 > 后端开发 > Python >python下的爬虫简介
  • 814
分享到

python下的爬虫简介

爬虫简介python 2023-01-31 00:01:45 814人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

今天看了一本书的介绍《python网络爬虫实战》,里面介绍了四种框架(or模块),我做了小结如下:scrapy     基本常用的框架,只要根据固定模版,编写即可,自己主要编写解析的选择器,和解析出来的数据处理。特别适合静态页面的,比如新闻

今天看了一本书的介绍《python网络爬虫实战》,里面介绍了四种框架(or模块),我做了小结如下:

  1. scrapy     基本常用的框架,只要根据固定模版,编写即可,自己主要编写解析的选择器,和解析出来的数据处理。特别适合静态页面的,比如新闻资讯等

  2. beautiful soup    不是框架,是一个模块,不能像scrapy只是配置,scrapy侧重解析返回的html文件和处理解析出来的数据。bs需要完全从头到位自己编写,但是灵活度更高。

  3. mechanize    模拟浏览器,可以实现交互,比如验证码输入等。

  4. selenium     上面的功能对于js不能很好的支持,这个模块可以支持js,我个人喜欢用这个模块,因为它的使用方法跟我以前使用的微软平台下的WEBbrowser控件很相似。

       对selenium,主要适用里面的selenium.Webdriver模块,它支持多种浏览器,比如chrome,i.e.,firefox,opera等,但是如果不用界面,则使用plantomjs,plantomjs是没有界面的,速度比chrome快,根据介绍,它用于页面自动化、网络监测、网页截屏、以及×××面测试等,所以在服务器模式下,没有界面,用plantomjs是最好的选择。现在plantomjs有Mac版本的,可以去网站下载。记得用迅雷下载。下载好了,直接解压,将里面bin目录下的文件 : cp phantomjs  /usr/local/bin/ 。 就可以在Python使用了,只要import selenium就可以使用。使用selenium非常简单,基本上就是将你如何操作浏览器浏览网页的步骤代码化。


--结束END--

本文标题: python下的爬虫简介

本文链接: https://lsjlt.com/news/182798.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python下的爬虫简介
    今天看了一本书的介绍《python网络爬虫实战》,里面介绍了四种框架(or模块),我做了小结如下:scrapy     基本常用的框架,只要根据固定模版,编写即可,自己主要编写解析的选择器,和解析出来的数据处理。特别适合静态页面的,比如新闻...
    99+
    2023-01-31
    爬虫 简介 python
  • python - 爬虫简介
    什么是爬虫? 模拟浏览器对网站服务器发送请求解析服务器返回的响应数据,并保存数据 爬虫能获取哪些数据? 原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据 爬虫的应用场景? 数据分析 (如电影票房、股票信...
    99+
    2023-09-10
    爬虫
  • Python爬虫框架Scrapy简介
    在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习。开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框...
    99+
    2024-04-02
  • python爬虫框架feapder的使用简介
    目录1. 前言 2. 介绍及安装 3. 实战一下 3-1  创建爬虫项目3-2  创建爬虫 AirSpider3-3  配...
    99+
    2024-04-02
  • Python爬虫教程-01-爬虫介绍
    Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 url, http web前端,html,css,...
    99+
    2023-01-30
    爬虫 教程 Python
  • Python简单爬虫
    爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...
    99+
    2023-01-31
    爬虫 简单 Python
  • python爬虫-简单使用xpath下载
      首先 1.为方便以下进行       谷歌浏览器里要安装xpath脚本  2.下载一个lmxl     命令:pip install lxml 3. 以下三张图是一个,当时爬的 《糗事百科》里的图片   值的注意的是:在爬取接口时,要...
    99+
    2023-01-30
    爬虫 简单 python
  • python爬虫xpath模块简介示例代码
    目录一、前言二、简介三、安装四、使用五、案例一、前言 前两篇博客讲解了爬虫解析网页数据的两种常用方法,re正则表达解析和beautifulsoup标签解析,所以今天的博客将围绕另外一...
    99+
    2023-02-14
    python xpath模块 python爬虫 xpath
  • Python爬虫教程-34-分布式爬虫介
    Python爬虫教程-34-分布式爬虫介绍 分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫 什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎...
    99+
    2023-01-30
    爬虫 分布式 教程
  • Python 简单业务爬虫
    如何快速下载贴吧图片呢?#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url):     page = urllib.urlop...
    99+
    2023-01-31
    爬虫 简单 业务
  • python简单爬虫笔记
    python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...
    99+
    2023-01-31
    爬虫 简单 笔记
  • Python爬虫必备之Xpath简介及实例讲解
    目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言 网上已经有很多大佬发过Xpath,而且讲的都很好,我是因为刚开始学...
    99+
    2024-04-02
  • python实现简单爬虫--爬图片
    首先有两个功能需求:第一:获取到要爬的页面html内容;第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...
    99+
    2023-01-31
    爬虫 简单 图片
  • 一个简单的python爬虫,爬取知乎
    一个简单的python爬虫,爬取知乎主要实现 爬取一个收藏夹 里 所有问题答案下的 图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码:# -*- coding:utf-8 ...
    99+
    2023-06-02
  • python 简单的股票基金爬虫
    目录项目地址所用到的技术开始编写爬虫项目地址 https://github.com/aliyoge/fund_crawler_py 所用到的技术 IP代理池 多线程 爬虫 sql ...
    99+
    2022-06-02
    python 股票爬虫 python 基金爬虫
  • Python制作简单的网页爬虫
    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...
    99+
    2022-06-04
    爬虫 简单 网页
  • 简单实现python爬虫功能
    在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。   我们最常规的做法就是通过鼠标右键,选择另存为。但有些图...
    99+
    2022-06-04
    爬虫 简单 功能
  • python爬虫入门教程(非常详细),超级简单的Python爬虫教程
    一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT...
    99+
    2023-09-01
    python 爬虫 python爬虫 爬虫入门 python零基础
  • 用Python编写简单的微博爬虫
    先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下: 只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF! 所以...
    99+
    2022-06-04
    爬虫 简单 Python
  • Python爬虫之requests库基本介绍
    目录一、说明二、基本用法:总结一、说明 requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作