python 爬虫出现403禁止访问错误详解

爬虫详解错误 2022-06-04 18:06:21 601人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

python 爬虫解决403禁止访问错误在python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止，要解决这个问题，需要用到Python的模块urll

python 爬虫解决403禁止访问错误

在python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止，要解决这个问题，需要用到Python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块，有非常多的方法，比方说连接url=Http://blog.csdn.net/qysh123对于这个连接就有可能出现403禁止访问的问题

解决这个问题，需要以下几步骤：


<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (windows NT 6.3; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","http://blog.csdn.net/")</span>

其中User-Agent是浏览器特有的属性，通过浏览器查看源代码就可以查看到

然后


html=urllib2.urlopen(req)


print html.read()

就可以把网页代码全部下载下来，而没有了403禁止访问的问题。

对于以上问题，可以封装成函数，供以后调用方便使用，具体代码：


#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="http://blog.csdn.net/qysh123/article/details/44564943" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
   
] 
def get_content(url,headers): 
  ''''' 
  @获取403禁止访问的网页 
  ''' 
  randdom_header=random.choice(headers) 
 
  req=urllib2.Request(url) 
  req.add_header("User-Agent",randdom_header) 
  req.add_header("Host","blog.csdn.net") 
  req.add_header("Referer","http://blog.csdn.net/") 
  req.add_header("GET",url) 
 
  content=urllib2.urlopen(req).read() 
  return content 
 
print get_content(url,my_headers)

其中用到了random随机函数，自动获取已经写好的浏览器类型的User-Agent信息，在自定义函数中需要写出自己的Host,Referer,GET信息等，解决这几个问题，就可以顺利访问了，不再出现403访问的信息。

当然如果访问频率过快的话，有些网站还是会过滤的，解决这个需要用到代理IP的方法。。。具体的自己解决

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

您可能感兴趣的文档:

--结束END--

本文标题: python 爬虫出现403禁止访问错误详解

本文链接: https://lsjlt.com/news/13600.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python 爬虫出现403禁止访问错误详解

python 爬虫解决403禁止访问错误在Python写爬虫的时候，html.getcode()会遇到403禁止访问的问题，这是网站对自动化爬虫的禁止，要解决这个问题，需要用到python的模块urll...

99+

2022-06-04

爬虫详解错误
403状态码是什么？深入解析HTTP协议中的禁止访问错误

403状态码是什么？深入解析HTTP协议中的禁止访问错误在互联网使用过程中，经常会遇到各种状态码。状态码是指在进行HTTP通信时，服务器返回给客户端的一种标识，用于表示请求的处理状态...

99+

2024-02-22

状态码解析和禁止访问
nginx访问报403错误的几种情况详解

目录一问题描述1.1 情况一：确保nginx的配置文件是否root用户权限 1.2 情况二：确保nginx的配置文件代理的路径 1.3 情况...

99+

2024-04-02
如何解决XP下HTTP的403.9错误-禁止访问的问题

本篇文章为大家展示了如何解决XP下HTTP的403.9错误-禁止访问的问题，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。网上给出了不少的办法，这里举出两个，但是真正最有效的解决办法却是第二个，之所以...

99+

2023-06-14
python爬虫返回403错误？加了请求头+代理也解决不了＞＞看这

一、问题分析【疑惑】：使用python的requests库发起get或post请求返回403代码错误，使用postman发起请求发现状态码竟然成功了。这是什么原因？首先排除ip问题，ip有问题的...

99+

2023-09-01

python 爬虫开发语言
Python网络爬虫出现乱码问题的解决方法

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来后...

99+

2022-06-04

爬虫解决方法出现乱码
python requests爬虫返回403错误？加了所有特征的请求头+代理也解决不了的问题处理

一、问题分析【疑惑】：使用python的requests库发起get或post请求返回403代码错误，使用postman发起请求发现状态码竟然成功了。这是什么原因？首先排除ip问题，ip有问题的...

99+

2023-09-05

python 爬虫开发语言
python出现RuntimeError错误问题及解决

目录下面是出现的错误解释下面是出现错误代码的原代码这是修改后的正确代码python报错:RuntimeError这种错误原因解决办法下面是出现的错误解释 RuntimeError:&...

99+

2024-04-02
python django 访问静态文件出现404或500错误

django static文件夹下面的内容方法不了出现404 500错误需要查看自己的settings文件确保有一下内容 import os PROJECT_ROOT = os.path.dirna...

99+

2022-06-04

静态错误文件
访问sqlserver服务器提示出现错误怎么解决

1、检查网络连接首先要检查客户端与服务器之间的网络连接是否正常。可以尝试ping服务器IP地址或者使用其他网络工具进行检查。2、检查...

99+

2023-05-13

访问sqlserver服务器服务器
解决Python 出现File “＜stdin＞“, line 1非语法错误的问题

在VSCode写了一个很简单的程序： str1 = 'Python is good' print(str1.replace('Python', 'python')) 点击在终端运行时...

99+

2023-03-14

Python出现File ＜stdin＞ line 1非语法错误 Python File ＜stdin＞非语法错误
解决python 两个时间戳相减出现结果错误的问题

如下所示：两个时间相差一整天，结果却是相差时间为零！！！！这里是使用错误， .seconds只会计算小时分钟秒部分之间的差值在这里使用total_seconds() 才...

99+

2024-04-02
win10出现0x800704cf不能访问网络位置怎么办? 0x800704cf错误解决方案

win10系统提示0x800704cf错误怎么解决的教程最近有用户在使用win10系统时会出现一个比较棘手的问题，虽然可以用U盘重装win10系统来解决，但是有的用户不方便重装系统怎么解决打开软件提示&ldqu...

99+

2023-06-16

win10 0x800704cf
SQL SERVER数据库备份时出现“操作系统错误5（拒绝访问）”怎么解决

这篇文章主要介绍“SQL SERVER数据库备份时出现“操作系统错误5（拒绝访问）”怎么解决”，在日常操作中，相信很多人在SQL SERVER数据库备份时出现“操作系统错误5（拒绝访问）”怎么解决问题上存在...

99+

2024-04-02
如何解决python 两个时间戳相减出现结果错误的问题

本篇内容主要讲解“如何解决python 两个时间戳相减出现结果错误的问题”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何解决python 两个时间戳相减出现结果错误的问题”吧!Python主要...

99+

2023-06-09
如何解决bs4在Python 3.6下出现“ImportError: cannot import name 'HTMLParseError'错误问题

本篇文章为大家展示了如何解决bs4在Python 3.6下出现“ImportError: cannot import name 'HTMLParseError'错误问题，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇...

99+

2023-06-04
完美解决springboot项目出现”java:错误:无效的源发行版:17“问题(图文详解)

springboot项目出现”java: 错误: 无效的源发行版：17“问题解决方案下面是报错页面问题解析在我个人遇到此问题的情况下，出现此错误的原...

99+

2023-05-18

springboot错误无效的源发行版:17 springboot无效发行版:17
全网多种方法解决Invalid Host header(无效的主机头)服务器域名访问出现的错误

文章目录 1. 复现错误 2. 分析错误 3. 解决错误 4. 其他方法解决该错误 1. 复现错误在搭建vue-cli环境，用nginx做代理服务器，访问时却显示：Invalid Host header。 2. ...

99+

2023-08-23

服务器运维后端前端运维开发
【已解决】多种方式最新解决Invalid Host header(无效的主机头)服务器域名访问出现的错误

🐱 个人主页：不叫猫先生，公众号：前端舵手 🙋‍♂️ 作者简介：CSDN博客专家、内容合伙人，2023新星计划导师，前端领域优质创作者，共同学习共同进步，一起加油呀...

99+

2023-10-10

Invalid Host allowedHosts vue 原力计划