扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 后端开发 > Python >几行代码抓取百度首页

503

0

分享到

几行代码抓取百度首页

首页几行代码 2023-01-31 01:01:04 503人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

python中源码位置(以urllib为例): Python中自带的模块: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/

python中源码位置(以urllib为例):
   Python中自带的模块:
       /usr/lib/python3.5/urllib/request.py(python3)
       /usr/lib/python2.7/urllib2.py(python2)
   python的第三方模块:
       /usr/local/lib/python2.7/site-packages/

   注意:关于urllib模块,python3中的导入方法为import urllib.request.方法名

例子1:返回百度首页内容:

    #!/usr/bin/env python
    # coding=utf-8

    import urllib2
    #向指定的URL地址发送请求,并返回服务器响应的类文件对象
    response = urllib2.urlopen("Http://www.baidu.com")

    #服务器返回的类文件对象支持python文件对象的操作方法 
    #read()方法就是读取文件里的全部内容,返回字符串
    html = response.read()

    #打印响应内容
    print(html)

    注意:urlopen可以直接请求一个类文件对象,但是它不支持请求头构造(
    在反爬过程中,服务器可能会查看我们的请求头,而默认的请求头很容易被识别
    为爬虫,如python爬虫头部的User-Agent为Python-urllib/%s" % __version__
    可以通过查看urllib2源码或抓包查看.
    

    ),所以生产中的写法如下:
    #!/usr/bin/env python
    # coding=utf-8

    import urllib2

    #User-Agent是爬虫和反爬虫的第一步
    ua_headers = {
        "User-Agent": "Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/64.0.3253.3 Safari/537.36",
    }

    #通过urllib2.Request()方法构造一个请求对象
    request = urllib2.Request("http://www.baidu.com",headers = ua_headers)

    #向指定的URL地址发送请求,并返回服务器响应的类文件对象
    response = urllib2.urlopen(request)

    #服务器返回的类文件对象支持python文件对象的操作方法 
    #read()方法就是读取文件里的全部内容,返回字符串
    html = response.read()

    #打印响应内容
    print(html)

    #打印返回的状态码
    print(response.getcode())

    #打印具体返回页面的是哪个URL

您可能感兴趣的文档:

--结束END--

本文标题: 几行代码抓取百度首页

本文链接: https://lsjlt.com/news/183271.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

几行代码抓取百度首页

python中源码位置(以urllib为例): python中自带的模块: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/...

99+

2023-01-31

首页几行代码
PHP网页抓取之抓取百度贴吧邮箱数据代码分享

百度贴吧大家都经常逛，去逛百度贴吧的时候，经常会看到楼主分享一些资源，要求留下邮箱，楼主才给发。对于一个热门的帖子，留下的邮箱数量是非常多的，楼主需要一个一个的去复制那些回复的邮箱，然后再粘贴发送邮件，...

99+

2022-06-04

贴吧取之邮箱
python爬取百度图片代码

import json import itertools import urllib import requests import os import re import sys word=input("请输入关键字：") path="./...

99+

2023-01-31

代码图片 python
python爬虫实战之爬取百度首页的方法

这篇文章给大家分享的是有关python爬虫实战之爬取百度首页的方法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，Python对代...

99+

2023-06-14
Python获取百度热搜的完整代码

好久没写了，就把上课做的一个小东西拿出来分享一下吧。百度网页截图如下 ↓↓↓ 程序运行输出结果截图 ↓↓↓ 上代码 ↓↓↓ from lxml import etree f...

99+

2024-04-02
Phantomjs抓取渲染JS后的网页（Python代码）

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。 Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小编），漫步了一圈，...

99+

2022-06-04

代码网页 Phantomjs
android 封装抓取网页信息的实例代码

代码如下:package cn.mypic; import java.io.BufferedInputStre...

99+

2022-06-06

封装 Android
使用python实现抓取中国银行外汇牌价首页数据实现

利用requests、BeautifulSoup、xlwings库抓取中国银行外汇牌价首页数据 1. 利用requests、BeautifulSoup、xlwings库抓取中国银行外...

99+

2024-04-02
python百行代码实现汉服圈图片爬取

目录分析网站子链接获取获取标题和图片地址保存图片主函数平时旅游的时候，在旅游景区我们经常可以看到穿各种服饰去拍照的游客，也不会刻意多关注。前两天浏览网页无意看到一个网站，看到穿汉服的...

99+

2024-04-02
Python10行代码实现模拟百度搜索的示例

目录1. 获取百度搜索接口2. 指定搜索内容3. UA伪装4. 将响应内容写入文件5. 使用浏览器打开页面1000块钱做个百度？能提出这种要求的客户实乃乙方克星、民族之光、科创永动机...

99+

2024-04-02
php测试程序运行速度和页面执行速度的代码

microtime() 函数返回当前 Unix 时间戳的微秒数。用于检测程序执行时间的函数,也是PHP内置的时间函数之一,在PHP中可以用于对程序执行时间的判断,以及相同功能函数的执...

99+

2022-12-14

php测试速度 php microtime()用法
Python获取代码运行时间的几种方法

Python获取代码运行时间的几种方法1、方法一：#python 的标准库手册推荐在任何情况下尽量使用time.clock().#只计算了程序运行CPU的时间，返回值是浮点数import timestart =time.clock()#中...

99+

2023-01-31

几种方法代码时间
Python爬虫爬取爱奇艺电影片库首页的实例代码

上篇文章给大家介绍了Python爬取爱奇艺电影信息代码实例感兴趣的朋友点击查看下。今天给大家介绍Python爬虫爬取爱奇艺电影片库首页，下面是实例代码，参考下： i...

99+

2024-04-02
分享下页面关键字抓取www.icbase.com站点代码(带asp.net参数的)

代码如下:<php//set_time_limit(0);// base functionfunction curl_get($url, $data = array()...

99+

2022-06-07

com www net ASP.NET 关键字关键 ASP
如何使用python百行代码实现汉服圈图片爬取

这篇文章主要介绍如何使用python百行代码实现汉服圈图片爬取，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！分析网站网址如下：https://www.aihanfu.com/zixun/tushang-1/这是第一页...

99+

2023-06-25
前百度首席运营官陆奇：写一手好代码的我，做到这几点也可以做一个优秀的工程师

image...

99+

2023-06-04
如何使用html代码将百度搜索栏包含到你的页面里

这篇文章给大家分享的是有关如何使用html代码将百度搜索栏包含到你的页面里的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。<html><head><meta http-equiv=&q...

99+

2023-06-08
php读取文件最后几行数据的代码是什么

本教程操作环境：windows7系统、PHP7.1版、DELL G3电脑php读取文件最后几行数据实现思想：借助file()函数将整个文件数据存入数组中，每一行数据对应一个数组元素借助array_slice()函数获取数组中后几个元素即可。...

99+

2018-11-25

php 读取文件
互联网中如何设置禁止百度移动搜索对网页进行转码

这篇文章主要为大家展示了“互联网中如何设置禁止百度移动搜索对网页进行转码”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“互联网中如何设置禁止百度移动搜索对网页进行转码”这篇文章吧。　　在百度移动搜...

99+

2023-06-10
vue中使用el-table组件checkbox进行分页多选，回显、切换分页记住上一页所勾选和取消的选项(示例代码)

vue中使用el-table组件checkbox进行分页多选，回显、切换分页记住上一页所勾选和取消的选项 <template> <el-dialog tit...

99+

2022-12-20

vue el-table多页多选翻页回显 vue el-table多选回显 vue el-table多选

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

python写一段编程，祝福高三考生旗开得胜

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

推荐阅读

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号