返回顶部
首页 > 资讯 > 后端开发 > Python >Python怎么爬虫博文
  • 435
分享到

Python怎么爬虫博文

2023-06-17 00:06:56 435人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容主要讲解“python怎么爬虫博文”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么爬虫博文”吧!一. 大数据及数据挖掘基础***部分主要简单介绍三个问题:什么是大数据?什么

本篇内容主要讲解“python怎么爬虫博文”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习Python怎么爬虫博文”吧!

一. 大数据及数据挖掘基础

***部分主要简单介绍三个问题:

什么是大数据

什么是数据挖掘

大数据和数据挖掘的区别?

1、大数据(Big Data)

大数据(big data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

下图是大数据经典的4V特征。

Python怎么爬虫博文

IBM大数据库框架可视化技术,大数据常用:hadoopspark,现在更多的是实时数据分析,包括淘宝、京东、附近美食等。

Python怎么爬虫博文

下图是大数据的一些应用

Python怎么爬虫博文

Python怎么爬虫博文

说到大数据,就不得不提Hadoop,而说到Hadoop,又不得不提Map-Reduce。

Python怎么爬虫博文

mapReduce是一个软件框架由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想是“分而治之”。Mapper负责“分,Reducer负责对map阶段的结果进行汇总。

2、数据挖掘(Data Mining)

数据挖掘(Data Mining):数据库机器学习人工智能、统计学的交叉学科。

数据挖掘需要发现有价值的知识,同时最顶端都是具有智慧的去发现知识及有价值的信息。

Python怎么爬虫博文

Python怎么爬虫博文

因为它主要是针对网页数据进行的大数据分析,需要WEB Mining分类如下:

Python怎么爬虫博文

Web挖掘主要分为三类:Web日志挖掘、Web内容挖掘、Web结构挖掘。

Python怎么爬虫博文

3、机器学习

讲到机器学习和数据挖掘相关的知识,通常都会补充两幅图片。很形象的表示了计算机智能化与人类传统知识的类比。

Python怎么爬虫博文

Python怎么爬虫博文

二. 安装Python及基础知识

安装Python

在开始使用Python编程之前,需要介绍Python的安装过程。python解释器在linux中可以内置使用安装

步骤如下:

***步:打开Web浏览器并访问官网;

Python怎么爬虫博文

在官网首页点击Download链接,进入下载界面,选择Python软件的版本,作者选择下载python 2.7.8,点击“Download”链接。

Python下载地址:

选择文件下载地址,并下载文件。

双击下载的“python-2.7.8.msi”软件,并对软件进行安装。

Python怎么爬虫博文

在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮,如图所示。

注意1:建议将Python安装在C盘下,通常路径为C:Python27,不要存在中文路径。

Python怎么爬虫博文

在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮。

Python怎么爬虫博文

安装成功后,如下图所示:

Python怎么爬虫博文

假设安装一切正常,点击“开始”,选中“程序”,找到安装成功的Python软件,如图所示:

Python怎么爬虫博文

选中上图中第三个图标,即点击“Python (command line)命令行模式”,运行程序输入如下代码:

print 'hello world'

则python命令行模式的解释器会打印输出“hello world”字符串,如下图所示。

Python怎么爬虫博文

选中图中的***个图片,点击“IDLE (Python GUI)”,即运行Python的集成开发环境(Python Integrated Development Environment,IDLE),运行结果如下图。

注意2:建议大家使用IDLE写脚本,完整的代码而不是通过命令行模式。

Python怎么爬虫博文

2、Python基础知识

这里简单入门介绍,主要介绍下条件语句、循环语句、函数等基础知识。

a、函数及运行

这里举个简单的例子。打开IDLE工具->点击栏"File"->New File新建文件->命名为test.py文件,在test文件里添加代码如下:

Python怎么爬虫博文

保存文件。并在test.py文件里点击Run->Run Module,输出结果如下图所示。

Python怎么爬虫博文

b、条件语句

包括单分支、双分支和多分支语句,if-elif-else。

(1).单分支语句

它的基本格式是:

if condition:  statement  statement

需要注意的是Ptthon中if条件语句条件无需圆括号(),条件后面需要添加冒号,它没有花括号{}而是使用TAB实现区分。其中condition条件判断通常有布尔表达式(True|False 0-假|1-真 非0即真)、关系表达式(>= <= == !=)和逻辑运算表达式(and or not)。

(2).双分支语句

它的基本格式是:

if condition:  statement  statement  else:  statement  statement

(3).多分支语句

if多分支由if-elif-else组成,其中elif相当于else if,同时它可以使用多个if的嵌套。具体代码如下所示:

Python怎么爬虫博文

c、while循环语句

while循环语句的基本格式如下:

while condition:  statement  statement  else:  statement  statement

其中判断条件语句condition可以为布尔表达式、关系表达式和逻辑表达式,else可以省略(此处列出为与C语言等区别)。举个例子:

Python怎么爬虫博文

d、for循环

该循环语句的基础格式为:

for target in sequences:  statements

target表示变量名,sequences表示序列,常见类型有list(列表)、tuple(元组)、strings(字符串)和files(文件)。

Python的for没有体现出循环的次数,不像C语言的for(i=0;i<10;i++)中i循环计数,Python的for指每次从序列sequences里面的数据项取值放到target里,取完即结束,取多少次循环多少次。其中in为成员资格运算符,检查一个值是否在序列中。同样可以使用break和continue跳出循环。

下面是文件循环遍历的过程:

Python怎么爬虫博文

e、课堂讲解代码

仅供大家参考:

Python怎么爬虫博文

输出结果如下图所示:

Python怎么爬虫博文

三. 安装PIP及第三方包

接下来需要详解介绍爬虫相关的知识了,这里主要涉及到下面几个知识:

Python怎么爬虫博文

爬虫主要使用Python(字符串|urllib)+selenium+Phantomjs+BeautifulSoup。

Python怎么爬虫博文

在介绍爬虫及Urllib下载网页或图片之前,先教大家如何使用pip安装第三方的库。

PIP

在介绍介绍它们之前,需要安装PIP软件。“作为Python爱好者,如果不知道easy_install或者pip中的任何一个的话,那么......”。

easy_insall的作用和perl中的cpan,ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式,而pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install,没有pip。常见的具体用法如下:

Python怎么爬虫博文

***步:下载PIP软件

可以在官网Http://pypi.python.org/pypi/pip#downloads下载,同时cd切换到PIP目录,在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装

第二步:安装PIP软件

Python怎么爬虫博文

Python怎么爬虫博文

当提示"pip and virtualenv installed"表示安装成功,那怎么测试PIP安装成功呢?

第三步:配置环境变量

此时在cmd中输入pip指令会提示错误“不是内部或外部命令”。

Python怎么爬虫博文

注意:两种解决方法,一种是通过cd ..去到Srcipts环境进行安装,pip install...

Python怎么爬虫博文

方法二:另一种配置Path路径。

需要添加path环境变量。PIP安装完成后,会在Python安装目录下添加pythonScripts目录,即在python安装目录的Scripts目录下,将此目录加入环境变量中即可!过程如下:

Python怎么爬虫博文

Python怎么爬虫博文

第四步:使用PIP命令

下面在CMD中使用PIP命令,“pip list outdate”列举Python安装库的版本信息。

Python怎么爬虫博文

注意:安装成功后,会在Python环境中增加Scripts文件夹,包括easy_install和pip。

Python怎么爬虫博文

PIP安装过程中可能出现各种问题,一种解决方法是去到python路径,通过python set_up.py install安装;另一种是配置Path环境比例。

课堂重点知识:

***节课主要想让大家体会下Python网络爬虫的过程及示例。需要安装的第三方库主要包括三个:

pip install httplib2  pip install urllib  pip install selenium

Python怎么爬虫博文

在安装过程中,如果pip install urllib报错,是因为httplib2包含了,可直接用。

Python怎么爬虫博文

注意:如果pip安装报错ascii编码问题,需要把计算机名称从中文修改为英文名。

四. Urllib下载网页及图片

在使用pip install urllib或pip install urllib2后,下面这段代码是下载网页。

Python怎么爬虫博文

首先我们调用的是urllib2库里面的urlopen方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP、FILE、https 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

Python怎么爬虫博文

***个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为 Socket._GLOBAL_DEFAULT_TIMEOUT。

***个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

Python怎么爬虫博文

response对象有一个read方法,可以返回获取到的网页内容。

获取的网页本地保存为"baidu.html",通过浏览器打开如下图所示:

Python怎么爬虫博文

然后是需要下载图片,这里需要学会找到图片的URL,如下图百度的LOGo,可以通过浏览器右键"审查元素"或"检查"来进行定位。

Python怎么爬虫博文

定位URL后,再通过函数urlretrieve()进行下载。

Python怎么爬虫博文

重点知识:

urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。

urlretrieve方法直接将远程数据下载到本地。

如果需要显示进度条,则使用下面这段代码:

Python怎么爬虫博文

五. HTML网页基础知识及审查元素

HTML DOM是HTML Document Object Model(文档对象模型)的缩写,HTML DOM则是专门适用于HTML/XHTML的文档对象模型。熟悉软件开发的人员可以将HTML DOM理解为网页的api。它将网页中的各个元素都看作一个个对象,从而使网页中的元素也可以被计算机语言获取或者编辑。

Python怎么爬虫博文

DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 DOM 被认为是基于树或基于对象的。

Python怎么爬虫博文

HTML DOM 定义了访问和操作HTML文档的标准方法。 HTML DOM 把 HTML 文档呈现为带有元素、属性和文本的树结构(节点树)。它们都是一个节点(node),就像公司的组织结构图一样。 我们现在从另一个角度来审视源代码,first.html的源码如下:

Python怎么爬虫博文

这个例子的***个元素就是<html>元素,在这个元素的起始标签和终止标签之间,又有几个标签分别起始和闭合,包括<head>、<title>和<body>。<head>和<body>标签是直接被<html>元素包含的,而<title>标签则包含在<head>标签内。要描述一个HTML网页的这种多层结构,用树来进行类比是***的方式。树形结构如下图所示:

Python怎么爬虫博文

重点:

在网络爬虫中,通常需要结合浏览器来定位元素,浏览器右键通常包括两个重要的功能:查看源代码和审查或检查元素。

Python怎么爬虫博文

通过审查元素,可以定位到需要爬取图片或网页的HTML源文件,通常是table或div的布局,这些HTML标签通常是成对出现的,如<html></html>、<div></div>等;同时会包括一些属性id、name、class来指定该标签。如:

<div id="content" name="n1" class="cc">....</div>

Python怎么爬虫博文

六. 安装Selenium及网页简单爬取

Selenium用于Web应用程序测试的工具,模拟浏览器用户操作,通过Locating Elements 定位元素。安装过程如下图所示,通过pip install selenium安装。

注意:需要cd去到Scripts目录进行安装。

Python怎么爬虫博文

Python怎么爬虫博文

selenium结合浏览器定位的基本函数包括:

Python怎么爬虫博文

***个基于Selenium爬虫的代码,通过调用Firefox浏览器:

Python怎么爬虫博文

输出如下图所示:

Python怎么爬虫博文

到此,相信大家对“Python怎么爬虫博文”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

--结束END--

本文标题: Python怎么爬虫博文

本文链接: https://lsjlt.com/news/286452.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python怎么爬虫博文
    本篇内容主要讲解“Python怎么爬虫博文”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么爬虫博文”吧!一. 大数据及数据挖掘基础***部分主要简单介绍三个问题:什么是大数据?什么...
    99+
    2023-06-17
  • python爬虫怎么爬取微博热搜
    这篇文章主要介绍python爬虫怎么爬取微博热搜,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.twiste...
    99+
    2023-06-14
  • Python 爬虫爬取指定博客的所有文章
    自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下: 1.增加了Cron: 用来告诉程序每隔30分钟 让一个task ...
    99+
    2022-06-04
    爬虫 文章 博客
  • Python爬虫抓取csdn博客
            昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的...
    99+
    2023-01-31
    爬虫 博客 Python
  • 用python爬虫爬取CSDN博主信息
    一、项目介绍 爬取网址:CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名...
    99+
    2024-04-02
  • 爬取博客园有关爬虫的文章
        最近自己的测试小圈子里都在讨论爬虫,发现我装逼都困难了许多,所以决定快速补充一下这方面的东西。     到网上找了点视频,实在是看不进去(主要是对装逼没有什么帮助),然后又由于略微懒得原因就写了这个小东西。     没有封装,流水...
    99+
    2023-01-30
    爬虫 博客园 文章
  • 新浪微博爬虫设计(Python版)
    最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,...
    99+
    2023-01-31
    爬虫 新浪 Python
  • python爬虫如何爬取微博粉丝数据
    这篇文章主要介绍了python爬虫如何爬取微博粉丝数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,P...
    99+
    2023-06-14
  • Python爬虫入门教程——爬取自己的博
    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源。本文使用Python库requests、Beautiful Soup爬取CSDN博客的相关信息,利用txt文件转存。 基础知识: 网络爬虫是一种高效地信...
    99+
    2023-01-30
    自己的 爬虫 入门教程
  • 用Python编写简单的微博爬虫
    先说点题外话,我一开始想使用Sina Weibo API来获取微博内容,但后来发现新浪微博的API限制实在太多,大家感受一下: 只能获取当前授权的用户(就是自己),而且只能返回最新的5条,WTF! 所以...
    99+
    2022-06-04
    爬虫 简单 Python
  • Python爬虫采集微博视频数据
    目录前言知识点开发环境爬虫原理 案例实现前言 随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!今天我们通过pyth...
    99+
    2024-04-02
  • 六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
    用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 Python爬虫六部曲 第一步:安装request...
    99+
    2023-09-10
    python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
  • python实战之Scrapy框架爬虫爬取微博热搜
    前言:大概一年前写的,前段时间跑了下,发现还能用,就分享出来了供大家学习,代码的很多细节不太记得了,也尽力做了优化。 因为毕竟是微博,反爬技术手段还是很周全的,怎么绕过反爬的话要在这...
    99+
    2024-04-02
  • Python爬虫怎么突破反爬虫机制
    这篇文章主要介绍“Python爬虫怎么突破反爬虫机制”,在日常操作中,相信很多人在Python爬虫怎么突破反爬虫机制问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么突破反爬虫机制”的疑惑有所...
    99+
    2023-06-25
  • python爬虫反爬怎么处理
    针对 python 爬虫的反爬措施,开发者可以通过以下方式处理:获取代理 ip:使用代理池或手动收集代理 ip 以隐藏真实 ip。模拟浏览器行为:发送真实的用户代理、设置合适的请求头并模...
    99+
    2024-05-22
    python
  • Python 爬虫爬取微信文章
     爬取公众号文章搜狗微信平台为入口 地址:http://weixin.sogou.com/ --------------------------------------------------------------搜索关键词“科技”对比网...
    99+
    2023-01-31
    爬虫 文章 Python
  • Python爬虫如何采集微博视频数据
    这篇文章主要介绍了Python爬虫如何采集微博视频数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。知识点requestspprint开发环境版 本:python 3.8-编...
    99+
    2023-06-21
  • 怎么使用Python爬虫
    本篇内容介绍了“怎么使用Python爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!导入模块import re fro...
    99+
    2023-06-16
  • Python爬虫XPath怎么用
    这篇文章主要为大家展示了“Python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath?xpath...
    99+
    2023-06-25
  • 一文看懂Python爬虫
    本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于爬虫的相关知识,爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称,下面一起来看一下,希望对大家有帮助。爬虫是什么爬虫简单的来说就是用程序获取网络上数据这个过程的一种名...
    99+
    2023-05-14
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作