首页 > 资讯 > 后端开发 > Python >利用python爬取m3u8格式视频的具体实现

948

分享到

利用python爬取m3u8格式视频的具体实现

2024-04-02 19:04:59 948人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录m3u8原理脚本环境爬取步骤步骤的具体实现python细节处理说明参考代码总结 m3u8原理当我们在网页播放视频时，网页向服务器发起一个以.m3u8结尾的连接请求，服

m3u8原理

当我们在网页播放视频时，网页向服务器发起一个以.m3u8结尾的连接请求，服务器会将具体的.ts文件链接路径发送给网页，网页接收这写链接路径，并向这些链接发送请求，请求到的资源就是.ts视频文件，他和我们常见的mp4文件只是封装格式的不同，而且.ts文件的大小很小，我爬取的.ts文件只有六秒的视频文件。之后网页将这些.ts文件整合在一起并进行播放。

脚本环境

python3.8、win 10

爬取步骤

Python要做的事情

1、选择可以爬取的视频网站

2、获取.m3u8的URL路径

3、通过requests.get获取.ts文件路径

4、保存.ts文件

5、合并.ts文件为mp4格式

步骤的具体实现

1、视频网站：https://www.3s8m.com/

2、随便选择一个视频进入播放页面，按下F12或者Fn+F12，打开审查元素，选择网络，刷新页面，暂停视频，在审查元素的网络页面选择XHR(没有可以直接在全部搜索m3u8)，找到以m3u8结尾的数据包，点击获取URL

3、python 编写代码请求该URL，打印返回的数据；代码如下

import requests
url = “用第二部找到的URL填入”
results = requests.get(url) #发送get请求
results.encoding=“utf8” #设置编码格式，从网页源码中的head中可以看编码格式，这步不关键
print(results.text) #打印结果
results.close() #关闭

4、可以发现第3步中打印结果有很多URL地址，这些地址就是ts文件的地址，python下载ts文件

import request
url =“填入获取到的ts文件的URL”
results = requests.get(url)
results.encoding =“utf8”
with open("./a.ts",“wb”) as file:
file.write(results.content)
results.close()

5、合并全部的ts文件，调用python的os库，使用系统命令(copy /b a.ts+b.ts a.mp4)进行合并

import os
os.system(“copy /b a.ts+b.ts a.mp4”)

python细节处理说明

1、上述是通过手动查找获取的m3u8地址，那么为什么不用python去爬取，如果用python去爬取那么就需要对爬取的内容进行分析检索，我使用正则进行检索，也可以用xpath、bs4等方式进行检索。

2、一个m3u8地址会对应多个ts文件地址，我们应该对同一个m3u8的ts地址进行整体保存，下载后进行整合在一起变为一个m3u8对应一个视频

3、我们在浏览上述提供的网站时会发现，有些资源有不通播放源，有些版源不能用，那么我们在进行检索的时候可以多加一个进行源切换的操作

4、至于保存的文件名、文件路径这些自己返回，具体的代码下面会提供一个参考。

参考代码

使用代码的前提条件及说明：

1、在代码文件的目录下建一个名为ts_path的文件夹用于保存爬取过程中的临时文件(.ts文件)

2、保存的视频会存放与代码文件同一目录线下，视频名称为集数.mp4

3、视频下载完，ts_path中的文件需要手动删除，由于之前使用os.system进行删除，误删了我不少源码，决定不加删除代码防止意外

4、代码只是用与上述提供的网站，其他网站需要自己进行修改

import requests
import re
import os

URL = "输入URL" #视频URL
resources = 0   #播放源选择

episode_urls = [] #存放章节URL
episode_names = [] #存放章节名称
m3u8_urls = []  #存放ts文件的URL

def get_episode(URL,resources): #获取章节名和路径
    results = requests.get(URL)
    results.encoding = "utf-8"
    all = results.text
    results.close()
    episode = re.findall('<ul class="dslist-group">.*?</ul>', all, flags=re.S)
    b = re.finditer('href=".*?</a>', episode[resources],flags=re.S)
    for i in b:
        i = i[0].replace('href="', "").replace('"', "")
        episode_urls.append("Https://www.3s8m.com" + i.split('>', 1)[0])
        episode_names.append(i.split('>', 1)[1].replace("</a>", ""))
    print(episode_names)
    print(episode_urls)


def get_ts(episode_urls): #获取ts文件路径
    for i in episode_urls:
        results = requests.get(i)
        results.encoding = "utf8"
        results = re.search('https:.*?\.m3u8', str(results.text),flags=re.S)
        m3u8_urls.append(results[0].replace("\\", ""))
    print(m3u8_urls)


def download_video(episode_names, m3u8_urls): #下载ts文件并整合为mp4文件
    for i in range(len(m3u8_urls)):
        try:
            print(m3u8_urls[i])
            results = requests.get(m3u8_urls[i])
            results.encoding = "utf8"
            all = re.finditer("https://.*?#", results.text, flags=re.S)
            results.close()
            cmd = []
            n = 0
            for j in all:
                n += 1
                ts_url = j[0].replace("\n#", "")
                cmd.append(f'{n}.ts')
                results = requests.get(ts_url,)
                results.encoding = "utf8"
                with open(f"./ts_path/{n}.ts", "wb") as file:
                    file.write(results.content)
                results.close()
                print(f"{n}.ts 下载完成")
            os.chdir("ts_path")
            if ("ts_path" in os.getcwd()):
                cmd = "+".join(cmd)
                cmd = f"copy /b {cmd} {episode_names[i]}.mp4"
                os.system(cmd)
                os.system(f"move {episode_names[i]}.mp4 ../")
            os.chdir("../")
            print(f"{episode_names[i]}.mp4 下载成功")
        except Exception as e:
            print(e)
            exit(0)

if __name__ == '__main__':
    get_episode(URL, resources)
    get_ts(episode_urls)
    download_video(episode_names, m3u8_urls)

脚本跟目录

总结

到此这篇关于利用python爬取m3u8格式视频的文章就介绍到这了,更多相关python爬取m3u8格式视频内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: 利用python爬取m3u8格式视频的具体实现

本文链接: https://lsjlt.com/news/119856.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

利用python爬取m3u8格式视频的具体实现

目录

m3u8原理

脚本环境

爬取步骤

步骤的具体实现

python细节处理说明

参考代码

总结

利用python爬取m3u8格式视频的具体实现

Python爬虫小练习之爬取并分析腾讯视频m3u8格式

Python爬虫之m3u8文件里提取小视频的正确姿势

Python+Selenium实现短视频热点爬取

android 获取视频,图片缩略图的具体实现

Python+Selenium怎么实现短视频热点爬取

利用Golang和FFmpeg实现视频格式转换的方法

Python格式化输出的具体实现

Django实现视频播放的具体示例

利用Python实现普通视频变成动漫视频

如何实现python爬虫爬取视频时实现实时进度条显示

以视频爬取实例讲解Python爬虫神器Beautiful Soup用法

python怎么利用第三方库爬取热门视频和音乐

利用Golang和FFmpeg实现视频帧提取的方法

基于python实现的抓取腾讯视频所有电影的爬虫

Python实现爬取某站视频弹幕并绘制词云图

利用Python轻松实现视频转GIF动图

如何使用Python实现视频去重的小工具

Python利用pangu模块实现文本格式化小工具

Python如何实现爬取某站视频弹幕并绘制词云图

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义