返回顶部
首页 > 资讯 > 后端开发 > Python >利用python爬虫怎么破解加密字体
  • 300
分享到

利用python爬虫怎么破解加密字体

2023-06-06 17:06:18 300人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

本篇文章为大家展示了利用python爬虫怎么破解加密字体,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言

本篇文章为大家展示了利用python爬虫怎么破解加密字体,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

python是什么意思

Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言,其最初的设计是用于编写自动化脚本,随着版本的不断更新和新功能的添加,常用于用于开发独立的项目和大型项目。

案例目的:

通过爬取起小点小说月票榜的名称和月票数,介绍如何破解字体加密的反爬,将加密的数据转化成明文数据。

程序功能:

输入要爬取的页数,得到每一页对应的小说名称和月票数。

案例分析: 找到目标的url:

利用python爬虫怎么破解加密字体

(右键检查)找到小说名称所在的位置:

利用python爬虫怎么破解加密字体

通过名称所在的节点位置,找到小说名称的xpath语法:

利用python爬虫怎么破解加密字体

(右键检查)找到月票数所在的位置:

利用python爬虫怎么破解加密字体

由上图发现,检查月票数据的文本,得到一串加密数据。

我们通过xpathhelper进行调试发现,无法找到加密数据的语法。因此,需要通过正则表达式进行提取。

通过正则进行数据提取。

利用python爬虫怎么破解加密字体

正则表达式如下:

利用python爬虫怎么破解加密字体

得到的加密数据如下:

利用python爬虫怎么破解加密字体

破解加密数据是本次案例的关键:

既然是加密数据,就会有加密数据所对应的加密规则的Font文件。
通过找到Font字体文件中数据加密文件的url,发送请求,获取响应,得到加密数据的woff文件。

注:我们需要的woff文件,名称与加密月票数前面的class属性相同。

利用python爬虫怎么破解加密字体

如下图,下载woff文件:

找到16进制的数字对应的英文数字。

利用python爬虫怎么破解加密字体

其次,我们需要通过第三方库TTFont将文件中的16进制数转换成10进制,将英文数字转换成阿拉伯数字。如下图:

利用python爬虫怎么破解加密字体

解析出每个加密数据对应的对应的月票数的数字如下:

利用python爬虫怎么破解加密字体

注意:

由于我们在上面通过正则表式获得的加密数据携带特殊符号

利用python爬虫怎么破解加密字体

因此解析出月票数据中的数字之后,除了将特殊符号去除,还需把每个数字进行拼接,得到最后的票数。

最后,通过对比不同页的url,找到翻页的规律:

利用python爬虫怎么破解加密字体
利用python爬虫怎么破解加密字体
利用python爬虫怎么破解加密字体

对比三个不同url发现,翻页的规律在于参数page

所以问题分析完毕,开始代码:

import requestsfrom lxml import etreeimport refrom fontTools.ttLib import TTFontimport JSONif __name__ == '__main__':  # 输入爬取的页数、  pages = int(input('请输入要爬取的页数:')) # eg:pages=1,2  for i in range(pages): # i=0,(0,1)    page = i+1  # 1,(1,2)    # 确认目标的url    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'    # 构造请求头参数    headers = {      'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.150 Safari/537.36'    }    # 发送请求,获取响应    response_ = requests.get(url_,headers=headers)    # 响应类型为html问文本    str_data = response_.text    # 将html文本转换成python文件    py_data = etree.HTML(str_data)    # 提取文本中的目标数据    title_list = py_data.xpath('//h5/a[@target="_blank"]/text() ')    # 提取月票数,由于利用xpath语法无法提取,因此换用正则表达式,正则提取的目标为response_.text    mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data)    print(mon_list)    # 获取字体反爬woff文件对应的url,xpath配合正则使用    fonturl_str = py_data.xpath('//p/span/style/text()')    font_url = re.findall(r"fORMat\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]    print(font_url)    # 获得url之后,构造请求头获取响应    headers_ = {      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',      'Referer':'Https://www.qidian.com/'    }    # 发送请求,获取响应    font_response = requests.get(font_url,headers=headers_)    # 文件类型未知,因此用使用content格式    font_data = font_response.content    # 保存到本地    with open('加密font文件.woff','wb')as f:      f.write(font_data)    # 解析加密的font文件    font_obj = TTFont('加密font文件.woff')    # 将文件转成明文的xml文件    font_obj.saveXML('加密font文件.xml')    # 获取字体加密的关系映射表,将16进制转换成10进制    cmap_list = font_obj.getBestCmap()    print('字体加密关系映射表:',cmap_list)    # 创建英文转英文的字典    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',          'seven':'7','eight':'8','nine':'9','zero':'0'}    # 将英文数据进行转换    for i in cmap_list:      for j in dict_e_a:        if j == cmap_list[i]:          cmap_list[i] = dict_e_a[j]    print('转换为阿拉伯数字的映射表为:',cmap_list)    # 去掉加密的月票数据列表中的符号    new_mon_list = []    for i in mon_list:      list_ = re.findall(r'\d+',i)      new_mon_list.append(list_)    print('去掉符号之后的月票数据列表为:',new_mon_list)    # 最终解析月票数据    for i in new_mon_list:      for j in enumerate(i):        for k in cmap_list:          if j[1] == str(k):            i[j[0]] = cmap_list[k]    print('解析之后的月票数据为:',new_mon_list)    # 将月票数据进行拼接    new_list = []    for i in new_mon_list:      j = ''.join(i)      new_list.append(j)    print('解析出的明文数据为:',new_list)    # 将名称和对应的月票数据放进字典,并转换成json格式及进行保存    for i in range(len(title_list)):      dict_ = {}      dict_[title_list[i]] = new_list[i]      # 将字典转换成json格式      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'      # 将数据保存到本地      with open('翻页起小点月票榜数据爬取.json','a',encoding='utf-8')as f:        f.write(json_data)

爬取了两页的数据,每一页包含20个数据

执行结果如下:

利用python爬虫怎么破解加密字体

上述内容就是利用python爬虫怎么破解加密字体,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注编程网Python频道。

--结束END--

本文标题: 利用python爬虫怎么破解加密字体

本文链接: https://lsjlt.com/news/247943.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 利用python爬虫怎么破解加密字体
    本篇文章为大家展示了利用python爬虫怎么破解加密字体,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言...
    99+
    2023-06-06
  • python爬虫字体加密的解决
    目录解决步骤获取到真正的源码注意的点直接点 某8网 https://*****.b*b.h*****y*8*.com/ 具体网址格式就是这样的但是为了安全起见,我就这样打码了. 抛出...
    99+
    2023-03-03
    python爬虫字体加密 python爬虫加密
  • python爬虫字体加密问题怎么解决
    本文小编为大家详细介绍“python爬虫字体加密问题怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“python爬虫字体加密问题怎么解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。抛出问题我们看到这个号...
    99+
    2023-07-05
  • 怎么利用python破解zip加密文件
    本篇内容主要讲解“怎么利用python破解zip加密文件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么利用python破解zip加密文件”吧!一、破解zip加密文件的思路准备一个加密的zip...
    99+
    2023-06-30
  • Python爬虫怎么突破反爬虫机制
    这篇文章主要介绍“Python爬虫怎么突破反爬虫机制”,在日常操作中,相信很多人在Python爬虫怎么突破反爬虫机制问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么突破反爬虫机制”的疑惑有所...
    99+
    2023-06-25
  • 爬虫小技巧利用Mitmproxy破解app
    mitmproxy就是用于MITM的proxy,MITM即中间人攻击(Man-in-the-middle attack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务...
    99+
    2024-04-02
  • 怎么用Python爬虫破解滑动验证码
    这篇文章给大家分享的是有关怎么用Python爬虫破解滑动验证码的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型)、long(长整型...
    99+
    2023-06-14
  • 使用K近邻算法与CSS动态字体加密后Python怎么反爬虫
    本篇内容主要讲解“使用K近邻算法与CSS动态字体加密后Python怎么反爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“使用K近邻算法与CSS动态字体加密后Python怎么反爬虫”吧!  1....
    99+
    2023-06-02
  • 【Python爬虫----加密解密】爬虫JS逆向时Python的加密解密,编码(MD5,AES,DES,RSA,base64,UrlEncode等)
    如果遇到问题可以留言,欢迎技术交流。交换意见 一,Python中运行JS代码 1-1  解决中文乱码或者报错问题 import subprocessfrom functools import partialsubprocess.Popen ...
    99+
    2023-10-11
    javascript 前端 开发语言
  • Python爬虫怎么破解滑块验证码
    这篇文章主要介绍“Python爬虫怎么破解滑块验证码”,在日常操作中,相信很多人在Python爬虫怎么破解滑块验证码问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么破解滑块验证码”的疑惑有所...
    99+
    2023-06-20
  • ​​​​​​​如何利用python破解zip加密文件
    目录前言:一、破解zip加密文件的思路二、实例代码演示0、zip的压缩方式1、解压zip文件2、实现密码字符的全排列三、密码是几位未知,也可以破解密码总结前言: 日常工作中,会遇到一...
    99+
    2024-04-02
  • mysql加密字符串怎么破解
    mysql字符串加密的方法有TO_BASE64、 ENCODE、AES_ENCRYPT三种,使用方法如下:SET @str0 = 'abcdefg';SET @str1 = TO_BASE64(@str0);SET @str2 = ENCO...
    99+
    2024-04-02
  • 利用Python破解摩斯密码
    目录摩尔斯电码Python实现摩斯密码对照表加密解密测试完整代码总结在电影《无间道》中,刘建明(刘德华饰)作为黑帮的卧底在一次行动中发现了警察的卧底陈永仁(梁朝伟饰)与黄警督(黄秋生...
    99+
    2024-04-02
  • 怎么破解LUKS加密
    本篇内容介绍了“怎么破解LUKS加密”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!磁盘加密基础知识所有磁盘...
    99+
    2024-04-02
  • python爬虫怎么添加ip池
    这篇文章主要讲解了“python爬虫怎么添加ip池”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python爬虫怎么添加ip池”吧!1、下载代理ip池文件Proxypool。使用的是gith...
    99+
    2023-06-20
  • 使用python怎么破解加密zip文件的密码
    使用python怎么破解加密zip文件的密码?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。python可以做什么Python是一种编程语言,内置了许多有效的工具...
    99+
    2023-06-14
  • Python中怎么破解加密zip文件
    Python中怎么破解加密zip文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Python有一个内置模块zipfile可以干这个事情,测试一波,一个测试文件,设置解压密...
    99+
    2023-06-15
  • 利用Python爬虫给孩子起个好名字
    前言 相信每位家长都有所体会,因为要在孩子出生后两周内起个名字(需要办理出生证明了),估计很多人都像我一样,刚开始是很慌乱的,虽然感觉汉字非常的多随便找个字做名字都行,后来才发现真不是随便的事情,怎么想都发...
    99+
    2022-06-04
    爬虫 给孩子 好名字
  • 怎么利用Python实现RSA加密解密
    这篇文章主要介绍“怎么利用Python实现RSA加密解密”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么利用Python实现RSA加密解密”文章能帮助大家解决问题。RSA加密实验基本流程:一、选取...
    99+
    2023-06-29
  • 用Python爬虫破解滑动验证码的案例解析
    做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈。 今天分享个如何简单处理滑动图片的验证码的案例。...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作