首页 > 资讯 > 后端开发 > Python >利用python爬虫怎么破解加密字体

300

分享到

利用python爬虫怎么破解加密字体

2023-06-06 17:06:18 300人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

本篇文章为大家展示了利用python爬虫怎么破解加密字体，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言

本篇文章为大家展示了利用python爬虫怎么破解加密字体，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

python是什么意思

Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言，其最初的设计是用于编写自动化脚本，随着版本的不断更新和新功能的添加，常用于用于开发独立的项目和大型项目。

案例目的：

通过爬取起小点小说月票榜的名称和月票数，介绍如何破解字体加密的反爬，将加密的数据转化成明文数据。

程序功能：

输入要爬取的页数，得到每一页对应的小说名称和月票数。

案例分析：找到目标的url：

利用python爬虫怎么破解加密字体

（右键检查）找到小说名称所在的位置：

利用python爬虫怎么破解加密字体

通过名称所在的节点位置，找到小说名称的xpath语法：

利用python爬虫怎么破解加密字体

（右键检查）找到月票数所在的位置：

利用python爬虫怎么破解加密字体

由上图发现，检查月票数据的文本，得到一串加密数据。

我们通过xpathhelper进行调试发现，无法找到加密数据的语法。因此，需要通过正则表达式进行提取。

通过正则进行数据提取。

利用python爬虫怎么破解加密字体

正则表达式如下：

利用python爬虫怎么破解加密字体

得到的加密数据如下：

利用python爬虫怎么破解加密字体

破解加密数据是本次案例的关键：

既然是加密数据，就会有加密数据所对应的加密规则的Font文件。
通过找到Font字体文件中数据加密文件的url，发送请求，获取响应，得到加密数据的woff文件。

注：我们需要的woff文件，名称与加密月票数前面的class属性相同。

利用python爬虫怎么破解加密字体

如下图，下载woff文件：

找到16进制的数字对应的英文数字。

利用python爬虫怎么破解加密字体

其次，我们需要通过第三方库TTFont将文件中的16进制数转换成10进制，将英文数字转换成阿拉伯数字。如下图：

利用python爬虫怎么破解加密字体

解析出每个加密数据对应的对应的月票数的数字如下：

利用python爬虫怎么破解加密字体

注意：

由于我们在上面通过正则表式获得的加密数据携带特殊符号

利用python爬虫怎么破解加密字体

因此解析出月票数据中的数字之后，除了将特殊符号去除，还需把每个数字进行拼接，得到最后的票数。

最后，通过对比不同页的url，找到翻页的规律：

利用python爬虫怎么破解加密字体

对比三个不同url发现，翻页的规律在于参数page

所以问题分析完毕，开始代码：

import requestsfrom lxml import etreeimport refrom fontTools.ttLib import TTFontimport JSONif __name__ == '__main__':  # 输入爬取的页数、  pages = int(input('请输入要爬取的页数：')) # eg:pages=1,2  for i in range(pages): # i=0,(0,1)    page = i+1  # 1,(1,2)    # 确认目标的url    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'    # 构造请求头参数    headers = {      'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.150 Safari/537.36'    }    # 发送请求，获取响应    response_ = requests.get(url_,headers=headers)    # 响应类型为html问文本    str_data = response_.text    # 将html文本转换成python文件    py_data = etree.HTML(str_data)    # 提取文本中的目标数据    title_list = py_data.xpath('//h5/a[@target="_blank"]/text() ')    # 提取月票数,由于利用xpath语法无法提取，因此换用正则表达式，正则提取的目标为response_.text    mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data)    print(mon_list)    # 获取字体反爬woff文件对应的url，xpath配合正则使用    fonturl_str = py_data.xpath('//p/span/style/text()')    font_url = re.findall(r"fORMat\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]    print(font_url)    # 获得url之后，构造请求头获取响应    headers_ = {      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',      'Referer':'Https://www.qidian.com/'    }    # 发送请求，获取响应    font_response = requests.get(font_url,headers=headers_)    # 文件类型未知，因此用使用content格式    font_data = font_response.content    # 保存到本地    with open('加密font文件.woff','wb')as f:      f.write(font_data)    # 解析加密的font文件    font_obj = TTFont('加密font文件.woff')    # 将文件转成明文的xml文件    font_obj.saveXML('加密font文件.xml')    # 获取字体加密的关系映射表，将16进制转换成10进制    cmap_list = font_obj.getBestCmap()    print('字体加密关系映射表：',cmap_list)    # 创建英文转英文的字典    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',          'seven':'7','eight':'8','nine':'9','zero':'0'}    # 将英文数据进行转换    for i in cmap_list:      for j in dict_e_a:        if j == cmap_list[i]:          cmap_list[i] = dict_e_a[j]    print('转换为阿拉伯数字的映射表为：',cmap_list)    # 去掉加密的月票数据列表中的符号    new_mon_list = []    for i in mon_list:      list_ = re.findall(r'\d+',i)      new_mon_list.append(list_)    print('去掉符号之后的月票数据列表为：',new_mon_list)    # 最终解析月票数据    for i in new_mon_list:      for j in enumerate(i):        for k in cmap_list:          if j[1] == str(k):            i[j[0]] = cmap_list[k]    print('解析之后的月票数据为:',new_mon_list)    # 将月票数据进行拼接    new_list = []    for i in new_mon_list:      j = ''.join(i)      new_list.append(j)    print('解析出的明文数据为：',new_list)    # 将名称和对应的月票数据放进字典，并转换成json格式及进行保存    for i in range(len(title_list)):      dict_ = {}      dict_[title_list[i]] = new_list[i]      # 将字典转换成json格式      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'      # 将数据保存到本地      with open('翻页起小点月票榜数据爬取.json','a',encoding='utf-8')as f:        f.write(json_data)

爬取了两页的数据，每一页包含20个数据

执行结果如下：

利用python爬虫怎么破解加密字体

上述内容就是利用python爬虫怎么破解加密字体，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网Python频道。

您可能感兴趣的文档:

--结束END--

本文标题: 利用python爬虫怎么破解加密字体

本文链接: https://lsjlt.com/news/247943.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

利用python爬虫怎么破解加密字体

python是什么意思

利用python爬虫怎么破解加密字体

python爬虫字体加密的解决

python爬虫字体加密问题怎么解决

怎么利用python破解zip加密文件

Python爬虫怎么突破反爬虫机制

爬虫小技巧利用Mitmproxy破解app

怎么用Python爬虫破解滑动验证码

使用K近邻算法与CSS动态字体加密后Python怎么反爬虫

【Python爬虫----加密解密】爬虫JS逆向时Python的加密解密，编码（MD5,AES,DES,RSA,base64,UrlEncode等）

Python爬虫怎么破解滑块验证码

如何利用python破解zip加密文件

mysql加密字符串怎么破解

利用Python破解摩斯密码

怎么破解LUKS加密

python爬虫怎么添加ip池

使用python怎么破解加密zip文件的密码

Python中怎么破解加密zip文件

利用Python爬虫给孩子起个好名字

怎么利用Python实现RSA加密解密

用Python爬虫破解滑动验证码的案例解析

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义