返回顶部
首页 > 资讯 > 后端开发 > Python >怎么用python自动获取微信公众号最新文章
  • 505
分享到

怎么用python自动获取微信公众号最新文章

2023-07-02 18:07:58 505人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容介绍了“怎么用python自动获取微信公众号最新文章”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!微信公众号获取思路常用的微信公众号

本篇内容介绍了“怎么用python自动获取微信公众号最新文章”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

微信公众号获取思路

常用的微信公众号文章获取方法有搜狐、微信公众号主页获取和api接口等多个方法。
听说搜狐最近不怎么好用了,之前用的api接口也频繁维护,所以用了微信公众平台来进行数据爬取。
首先登陆自己的微信公众平台,没有账号的可以注册一个。进来之后找“图文信息”,就是写公众号的地方

怎么用python自动获取微信公众号最新文章

点进去后就是写公众号文章的界面,在界面中找到“超链接” 的字段,在这里就可以对其他的公众号进行检索。

怎么用python自动获取微信公众号最新文章

怎么用python自动获取微信公众号最新文章

以“Python”为例,输入要检索的公众号名称,在显示的公众号中选择要采集的公众号

怎么用python自动获取微信公众号最新文章

点开浏览器的检查,找到network中,下图里的这个链接,而右边的Request URL才是存储公众号数据的真实链接。说明这是个JSON网页。

怎么用python自动获取微信公众号最新文章

采集实例

以公众号“python”的 链接 为例对网址进行分析。

https://mp.weixin.qq.com/cgi-bin/appmsg:微信公众平台的链接"token": "163455614",     #需要定期修改的token"lang": "zh_CN", #语言"f": "json","ajax": "1",  #显示几天的文章"action": "list_ex""begin": "0", #起始页面"count": "1", #计数"query": "","fakeid": 'MzIwNDA1OTM4NQ==',  #公众号唯一编码"type": "9",

既然发现了fakeid是代表公众号的唯一编码,那接下来只需要把需要的公众号的fakeid找到就行,我随意找了三个公众号的进行测试

fakeid=[ 'MzIwNDA1OTM4NQ==','MzkxNzAwMDkwNQ==','MjM5NzI0NTY3Mg==']#若增加公众号需要增加fakeid

那接下来就是对网址的请求
首先导入需要的库

import timeimport requestsfrom lxml import etreeimport pandas as pdimport jsonimport numpy as npimport datetimeimport urllib3from urllib3.exceptions import InsecureRequestWarningurllib3.disable_warnings(InsecureRequestWarning)

由于不想重复登录公众号平台,可以使用cookie避开登陆,对文章求情前需要找到网页的cookie和User-Agent,由于微信公众号回定期刷新,这个cookie和上面的token都要定期更换。
为避免反扒最好也找个代理ip

headers = {"Cookie": "appmsglist_action_3567997841=card;wxuin=49763073568536;pgv_pvid=6311844914;ua_id=x6Ri8bc9LeaWnjNNAAAAADI-VXURALRxlSurJyxNNvg=;mm_lang=zh_CN;pac_uid=0_3cf43Daf28071;eas_sid=11Q6v5b0x484W9i7W0Z7l7m3I8;rewardsn=;wxtokenkey=777;wwapp.vid=;wwapp.cst=;wwapp.deviceid=;uuid=fd43d0b369e634ab667a99eade075932;rand_info=CAESIHgWwDfp3W4M9F3/TGnzHp4kKkrkMiCEvN/tSNhHtNBm;slave_bizuin=3567997841;data_bizuin=3567997841;bizuin=3567997841;data_ticket=IfMEEajZ8UvywUZ1NiIv9eKZkq0cgeS0oP6tTzEwNSjwK6q+u5vLw0XYeFvLL/JA;slave_sid=aVBzSlpYOGt4eTdmbzFRWDc1OUhzR1A1UkwzdUdBaklDaGh3dWY2MUZKTEw1Um1aalZRUXg5aVBMeEJVNklCcGlVN0s5Z3VEMmRtVENHS1ZxNTBDOWRCR0p2V2FyY2daU0hxT09Remd5YmlhRWExZkMwblpweVc3SndUbnJIQk55MGhUeExJa1NJcWZ0QmJS;slave_user=gh_e0f449d4f2b6;xid=7d5dc56bb7bb526c70cfef3f6bdfa18a","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_0) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/100.0.4896.75 Safari/537.36",    }proxies = {'Http': '112.80.248.73'}

接下来就可以对页面进行爬取,获取页面中的文章标题与文章链接,以及文章的时间,对网页的信息进行分析发现网页的所有信息都保存在’app_msg_list’这个字段中,所以对这个字段中的数据进行提取。

代码如下:

获取到的数据包存在df中,这里的数据还不是微信公众号的最新文章数据,而是微信公众号这最近一天发出的文章数据。所以还需要对发文的时间进行筛选。注意到这里的时间格式为时间戳,所以需要对时间数据进行转换
转换代码如下:

def time_s(df):    def transfer_time(s): #时间处理        aa = time.ctime(s)        bb = aa.split(' ')        cc = (bb[-1]+"-"+bb[1]+"-"+bb[-3]).replace('Jan','1').replace('Feb','2').replace('Mar','3'). \            replace('Apr','4').replace('May','5').replace('Jun','6').replace('Jul','7').replace('Aug','8') \            .replace('Sep','9').replace('Oct','10').replace('Nov','11').replace('Dec','12')        dd = datetime.datetime.strptime(cc,'%Y-%m-%d').date()        return dd        ti=[]    hd=[]    for i in range(0,len(df['time'])):        timestap= transfer_time(df['time'][i])        ti.append(timestap)        #print(ti)        d= ti[i] + datetime.timedelta(weeks=0, days=0, hours=0, minutes=0, seconds=0, milliseconds=0, microseconds=0, )        #dc = d.strftime("%Y-%m-%d")        hd.append(d)            df['time']=hd

这样就可以把微信公众号的时间戳数据转换为时间数据,之后,根据当前天的日期对数据集中的内容进行提取与存储就OK啦

dat=df[df['time'] == datetime.date.today() + datetime.timedelta(days= -1)] #自动获取昨天日期,将-1改为-2,则为前天的日期,以此类推    ##改自动化    path = 'C:/Users/gpower/Desktop/work/行业信息/'   #根据自己电脑位置更改    import re    filename=path+"微信公众号采集" + re.sub(r'[^0-9]','',datetime.datetime.now().strftime("%Y-%m-%d")) + '.csv'    # 对文件进行命名,以“微信公众号采集+当前日期”命名    dat.to_csv(filename,encoding='utf_8_sig')    print("保存成功")

“怎么用python自动获取微信公众号最新文章”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: 怎么用python自动获取微信公众号最新文章

本文链接: https://lsjlt.com/news/343662.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 怎么用python自动获取微信公众号最新文章
    本篇内容介绍了“怎么用python自动获取微信公众号最新文章”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!微信公众号获取思路常用的微信公众号...
    99+
    2023-07-02
  • python自动获取微信公众号最新文章的实现代码
    目录微信公众号获取思路采集实例微信公众号获取思路 常用的微信公众号文章获取方法有搜狐、微信公众号主页获取和api接口等多个方法。听说搜狐最近不怎么好用了,之前用的api接口也频繁维护...
    99+
    2024-04-02
  • python如何实现微信公众号文章爬取
    小编给大家分享一下python如何实现微信公众号文章爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!具体步骤如下:一、安装代理服务器目前使用的是Anyproxy...
    99+
    2023-06-19
  • 如何使用python3抓取微信公众号文章
    通过微信公众平台的查找文章接口,抓取我们需要的相关文章 1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。 打开https://mp.weixin.qq.com 登录公众号,打开素材...
    99+
    2023-01-31
    如何使用 公众 文章
  • python爬取微信公众号文章图片并转为PDF
    遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号...
    99+
    2024-04-02
  • 使用Python获取公众号下所有的文章
    目录导出公众号所有文章开发者ID与开发者密码保存数据到CSV文件导出公众号所有文章 随着互联网的不断发展,网络上兴起了很多的自媒体平台。不用我说,相信大家也能知道当下非常流行的平台都...
    99+
    2024-04-02
  • 使用Java怎么对微信公众号批量获取
    今天就跟大家聊聊有关使用Java怎么对微信公众号批量获取,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。首先为代理服务器安装证书,anyproxy默认不解析https链接,安装证书后就...
    99+
    2023-05-30
    java 微信公众号
  • c# 基于Titanium爬取微信公众号历史文章列表
    目录什么是Titanium原理简述对于HTTP对于HTTPS为什么要爬取历史文章实现步骤大致思路核心代码测试结果github:https://github.com/justcodin...
    99+
    2024-04-02
  • Python怎么实现快速保存微信公众号文章中的图片
    本文小编为大家详细介绍“Python怎么实现快速保存微信公众号文章中的图片”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么实现快速保存微信公众号文章中的图片”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知...
    99+
    2023-07-02
  • Python实现快速保存微信公众号文章中的图片
    目录一、实现效果(以槿泉壁纸为例)二、实现过程三、源码四、Python正则表达式匹配日期与时间一、实现效果(以槿泉壁纸为例) 二、实现过程 1.新建一个link文本,将需要下...
    99+
    2024-04-02
  • 怎么用Python爬虫公众号文章和链接
    这篇文章主要讲解了“怎么用Python爬虫公众号文章和链接”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python爬虫公众号文章和链接”吧!抓包我们需要通过抓包提取公众号文章的请求的...
    99+
    2023-06-16
  • 在PHP中实现微信公众号新用户自动欢迎消息发送
    在今天的社交媒体时代,微信公众号已成为许多企业和个人建立在线品牌和社交媒体营销的重要手段。对于一个新用户来说,第一次关注公众号是一个重要的节点,也是建立一个良好关系的最佳时机。在这个时候,自动发送欢迎消息是十分重要的。在PHP中,通过一些简...
    99+
    2023-05-14
    PHP 微信公众号 自动消息发送
  • 微信公众号开发中使用Java如何实现获取用户的信息
    微信公众号开发中使用Java如何实现获取用户的信息?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先需要到微信网站去设置一下,我是直接用的微信测试号。        接口配...
    99+
    2023-05-31
    java 微信公众号 用户信息
  • Python开发之快速搭建自动回复微信公众号功能
    在之前的一篇文章 Python利用 AIML 和 Tornado 搭建聊天机器人微信订阅号 中用 aiml 实现了一个简单的英文聊天机器人订阅号。但是只能处理英文消息,现在用 图灵机器人 来实现一个中文的聊...
    99+
    2022-06-04
    自动回复 公众 快速
  • 如何使用PHP编写微信公众号自动回复程序
    随着移动互联网的快速发展,微信已经成为了人们生活中必不可少的社交工具。而在微信公众号中,自动回复功能也是不可缺少的一部分。本文将介绍如何使用PHP编写微信公众号自动回复程序。准备工作首先,需要有一个微信公众号。如果没有的话可以去申请一个。其...
    99+
    2023-05-14
    PHP 微信公众号 自动回复程序
  • python使用pywinauto驱动微信客户端实现公众号爬虫
    目录项目地址pywinauto简介WechatAutomator类init_windowcrawl_gongzhonghaolocate_userprocess_page项目地址 https://github.com...
    99+
    2022-06-02
    python pywinauto python 公众号爬虫
  • 微信小程序通过web-view网页授权获取用户公众号OpenID
    小程序中实现网页授权获取微信公众号OpenID 1.准备工作2.应用场景说明3.实现步骤结语 1.准备工作 第一步: 通过该地址https://mp.weixin.qq.com/debug...
    99+
    2023-09-08
    微信小程序 前端 小程序 微信公众平台 java
  • python如何使用pywinauto驱动微信客户端实现公众号爬虫
    这篇文章主要介绍了python如何使用pywinauto驱动微信客户端实现公众号爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。pywinauto简介pywinauto是一...
    99+
    2023-06-15
  • 2023最新微信公众号无限回调系统源码/已修复BUG亲测可用
    正文: 测试环境: Nginx 1.20.2 MySQL 5.6.50 PHP-7.2 创建站点 到根目录上传源码 创建数据库并导入 修改数据库信息 根目录/config.php 第5,6,7行 后台地址域名/admin 账号admin...
    99+
    2023-10-18
    php
  • 微信小程序获取用户头像昵称手机号最新版
    微信小程序获取用户头像昵称手机号最新版 1. 微信又双叒叕改了获取用户头像和昵称的接口 小程序用户头像昵称获取规则调整公告 这里我们通过uniapp的方式展示,通过弹窗的方式来实现用户登录授权、获取昵称、头像 第一次弹窗,获取用户手机号,做...
    99+
    2023-08-22
    微信小程序 小程序 获取头像昵称 nickname获取不到昵称
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作