返回顶部
首页 > 资讯 > 后端开发 > Python >python3使用cookie免登录爬取
  • 863
分享到

python3使用cookie免登录爬取

cookie 2023-01-31 08:01:50 863人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

前言 由于一些论坛不登录验证,就不能查看帖子的内容和附件,所以需要登录验证,如果在代码中添加登录验证,那就增加了代码的复杂度,所以可以结合cookie来登录然后爬取需要的资料 cookie的获取 使用chrome,登录后在开发工具里查取

前言

由于一些论坛不登录验证,就不能查看帖子的内容和附件,所以需要登录验证,如果在代码中添加登录验证,那就增加了代码的复杂度,所以可以结合cookie来登录然后爬取需要的资料

cookie的获取

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author:aiker Zhao
@file:jianli.py
@time:下午10:50
"""
import os
import re

import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from hashlib import md5

headers = {
    'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
    'Cookie': 'PHPSESSID=ui7unwxc3yf4glbdaqmat2ee00; __cfduid=de4fa38a23ad640f0bcdb4313560af62e1543723208; ape__Session=ui7uxxxxdfd4glbdaqmat2ee00; _ga=GA1.2.176343230234.1552443854'

}

def get_content():
    url = 'Http://ask.xxxx.com/question/xxxx'   # url
    response = requests.get(url, headers=headers).text.replace('<i class="fa fa-paperclip"></i>', '')
    soup = BeautifulSoup(response, 'lxml')
    # div = soup.select('#aw-mod-body ueditor-p-reset')
    pattern = re.compile('<a\shref="(http://ask.apelearn.com/file.*?)".*?>(.*?)</a>', re.S)
    p = soup.find_all('a')
    for item in p:
        # print(str(item))
        result = re.findall(pattern, str(item))
        if result:
            # print(result)
            for i in result:
                url, name = i
                # print(i)
                yield {
                    'url': url,
                    'name': name
                }

def download_doc(url, name):
    print('正在下载', name, url)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            save_doc(response.content, name)
        return None
    except RequestException:
        print('请求文档出错', url)
        return None

def save_doc(content, name):
    try:
        if name:
            name_1 = re.sub('[:?!!:?【】]', '', name).split('.')[0]  # 替换title中的特殊字符,避免建立文件出错
            name_2 = name.split('.')[-1]
            dir = 'z:\\jianli2\\'
            if os.path.exists(dir):
                pass
            else:
                os.mkdir(dir)
            file_path = '{0}/{1}.{2}'.fORMat(dir, name_1 + md5(content).hexdigest(), name_2)
            # file_path = '{0}/{1}'.format(dir, name)
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as f:
                    f.write(content)
                    f.close()
    except OSError:
        pass

def main():
    # get_content()
    for f in get_content():
        url = f.get('url')
        name = f.get('name')
        download_doc(url, name)

if __name__ == '__main__':
    main()

运行脚本

python3使用cookie免登录爬取附件并下载

--结束END--

本文标题: python3使用cookie免登录爬取

本文链接: https://lsjlt.com/news/192601.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python3使用cookie免登录爬取
    前言 由于一些论坛不登录验证,就不能查看帖子的内容和附件,所以需要登录验证,如果在代码中添加登录验证,那就增加了代码的复杂度,所以可以结合cookie来登录然后爬取需要的资料 cookie的获取 使用chrome,登录后在开发工具里查取 ...
    99+
    2023-01-31
    cookie
  • python使用Cookie模拟登录
    from bs4 import BeautifulSoup import urllib2 url = 'https://www.douban.com' cookie='ll="118234"; __yadk_uid=FZYkMR92Oct...
    99+
    2023-01-31
    python Cookie
  • Selenium爬虫登录生成Cookie的方法
    本篇内容主要讲解“Selenium爬虫登录生成Cookie的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Selenium爬虫登录生成Cookie的方法”吧!Selenium爬虫登录生成Co...
    99+
    2023-06-03
  • python怎么获取cookie并登录
    要获取cookie并登录,你可以使用Python中的requests库。首先,你需要发送一个HTTP请求来获取cookie,然后将c...
    99+
    2023-10-11
    python
  • 使用Flurl登录期间缺少cookie
    出现缺少cookie的问题可能是由于以下几个原因:1. 未正确设置Cookie:- 确保在登录请求之前已经正确设置了Cookie。使...
    99+
    2023-09-17
    Flurl
  • 使用PHP实现登录的Cookie存储
    Cookie是一种小型文本文件,存储在用户计算机中,用于跟踪用户在互联网上的活动。Cookie通常由网站创建,以便记住用户的偏好和登录状态,或者记录用户的浏览历史和行为分析。Cookie可以在客户端和服务器之间传递,因此在浏览网站时可以持续...
    99+
    2023-09-11
    php Powered by 金山文档
  • 如何利用python3爬虫爬取漫画岛
    本篇内容主要讲解“如何利用python3爬虫爬取漫画岛”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何利用python3爬虫爬取漫画岛”吧!    最近学了一点点python爬虫的知识,面向百...
    99+
    2023-06-20
  • Selenium利用cookie免登陆音悦台
    Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能利用Cookie可以实现免登陆本次实验以:http://www.yinyuetai.com/ 音悦...
    99+
    2023-01-30
    Selenium cookie 音悦台
  • 使用Python爬虫怎么避免频繁爬取网站
    这期内容当中小编将会给大家带来有关使用Python爬虫怎么避免频繁爬取网站,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型...
    99+
    2023-06-15
  • 使用私钥登录 SSH 服务器(免密登录)
    SSH(Secure Shell)是一种用于远程登录和安全数据传输的协议。通过SSH,您可以在不安全的网络上安全地连接到远程服务器,并进行加密的数据传输。SSH支持多种身份验证方式,其中之一是使用SSH密钥对进行免密码登录。以下是使用私钥登...
    99+
    2023-12-23
    ssh 服务器 运维
  • 如何使用Selenium添加cookie实现自动登录
    小编给大家分享一下如何使用Selenium添加cookie实现自动登录,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!介绍Selenium可以模拟浏览器进行自动化操...
    99+
    2023-06-14
  • 【Python3爬虫】教你怎么利用免费代
    有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一...
    99+
    2023-01-30
    爬虫 教你
  • 【Python3爬虫】使用异步协程编写爬
    进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。 协程:协程是一种...
    99+
    2023-01-30
    爬虫
  • 详解如何用Python登录豆瓣并爬取影评
    目录一、需求背景二、功能描述三、技术方案四、登录豆瓣1.分析豆瓣登录接口2.代码实现登录豆瓣3.保存会话状态4.这个Session对象是我们常说的session吗?五、爬取影评1.分...
    99+
    2024-04-02
  • python模拟用户登录爬取阳光采购平台
    原创内容,爬取请指明出处:https://www.cnblogs.com/Lucy151213/p/10968868.html 阳光采购平台每月初会把当月的价格挂到平台上,现模拟用户登录平台,将需要的数据保存到csv文件和数据库,并且发送...
    99+
    2023-01-31
    用户登录 阳光 采购
  • Linux curl表单登录或提交与cookie使用详解
    前言 本文主要讲解通过curl 实现表单提交登录。单独的表单提交与表单登录都差不多,因此就不单独说了。 说明:针对curl表单提交实现登录,不是所有网站都适用,原因是有些网站后台做了限制或有其他校验。我们不知道这些网站后...
    99+
    2022-06-04
    linux的curl linux curl表单登录
  • 玩转python爬虫之cookie使用方法
    之前一篇文章我们学习了爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上...
    99+
    2022-06-04
    爬虫 玩转 使用方法
  • python网络爬虫之模拟登录 自动获取cookie值 验证码识别的具体实现
    目录1、爬取网页分析2、验证码识别3、cookie自动获取4、程序源代码chaojiying.pysign in.py1、爬取网页分析 爬取的目标网址为:https://www.gu...
    99+
    2024-04-02
  • Python模拟登录微博并爬取表情包
    一、开发工具 **Python****版本:**3.6.4 相关模块: DecryptLogin模块; argparse模块; requests模块; prettytable模块; ...
    99+
    2024-04-02
  • 使用Okhttp3怎么获取Cookie
    本篇文章给大家分享的是有关使用Okhttp3怎么获取Cookie,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。2.1 简介Okhttp是一个快速、高效的网络请求库。详情可以查阅...
    99+
    2023-05-30
    okhttp3 cookie
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作