基于python实现的抓取腾讯视频所有电影的爬虫

爬虫腾讯电影 2022-06-04 19:06:34 570人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongoDB学习成本非常低，安装、下载、运行起来不会花你5分钟时间。 # -*- coding: utf-8 -*- # by a

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongoDB学习成本非常低，安装、下载、运行起来不会花你5分钟时间。


# -*- coding: utf-8 -*-
# by awakenjoys. my site: www.dianying.at
import re
import urllib2
from bs4 import BeautifulSoup
import string, time
import pymonGo
 
NUM  = 0   #全局变量,电影数量
m_type = u''  #全局变量,电影类型
m_site = u'qq' #全局变量,电影网站
 
#根据指定的URL获取网页内容
def gethtml(url):
 req = urllib2.Request(url) 
 response = urllib2.urlopen(req) 
 html = response.read()
 return html
 
#从电影分类列表页面获取电影分类
def gettags(html):
 global m_type
 soup = BeautifulSoup(html)  #过滤出分类内容
 #print soup
 #<ul class="clearfix _group" gname="mi_type" gtype="1">
 tags_all = soup.find_all('ul', {'class' : 'clearfix _group' , 'gname' : 'mi_type'})
 #print len(tags_all), tags_all
 #print str(tags_all[1]).replace('n', '')
 
 #<a _hot="tag.sub" class="_gtag _hoTKEy" href="Http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>
 re_tags = r'<a _hot="tag.sub" class="_gtag _hotkey" href="(.+?)" title="(.+?)" tvalue="(.+?)">.+?</a>'
 p = re.compile(re_tags, re.DOTALL)
 
 tags = p.findall(str(tags_all[0]))
 if tags:
  tags_url = {}
  #print tags
  for tag in tags:
   tag_url = tag[0].decode('utf-8')
   #print tag_url
   m_type = tag[1].decode('utf-8')
   tags_url[m_type] = tag_url 
    
 else:
   print "Not Find"
 return tags_url
 
#获取每个分类的页数
def get_pages(tag_url):
 tag_html = gethtml(tag_url)
 #div class="paginator
 soup = BeautifulSoup(tag_html)  #过滤出标记页面的html
 #print soup
 #<div class="mod_pagenav" id="pager">
 div_page = soup.find_all('div', {'class' : 'mod_pagenav', 'id' : 'pager'})
 #print div_page #len(div_page), div_page[0]
 
 #<a class="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>
 re_pages = r'<a class=.+?><span>(.+?)</span></a>'
 p = re.compile(re_pages, re.DOTALL)
 pages = p.findall(str(div_page[0]))
 #print pages
 if len(pages) > 1:
  return pages[-2]
 else:
  return 1
  
 
def getmovielist(html):
 soup = BeautifulSoup(html)
 
 #<ul class="mod_list_pic_130">
 divs = soup.find_all('ul', {'class' : 'mod_list_pic_130'})
 #print divs
 for div_html in divs:
  div_html = str(div_html).replace('n', '')
  #print div_html
  getmovie(div_html)
 
 
def getmovie(html):
 global NUM
 global m_type
 global m_site
 
 #<h6 class="caption"> <a href="http://www.tudou.com/albumcover/Z7eF_40EL4I.html" target="_blank" title="徒步旅行队">徒步旅行队</a> </h6> <ul class="info"> <li class="desc">法国卖座喜剧片</li> <li class="cast"> </li> </ul> </div> <div class="ext ext_last"> <div class="ext_txt"> <h3 class="ext_title">徒步旅行队</h3> <div class="ext_info"> <span class="ext_area">地区: 法国</span> <span class="ext_cast">导演: </span> <span class="ext_date">年代: 2009</span> <span class="ext_type">类型: 喜剧</span> </div> <p class="ext_intro">理查德·达奇拥有一家小的旅游公司，主要经营法国游客到非洲大草原的旅游服务。六个法国游客决定参加理查德·达奇组织的到非洲的一...</p>
 
 re_movie = r'<li><a class="mod_poster_130" href="(.+?)" target="_blank" title="(.+?)"><img.+?</li>'
 p = re.compile(re_movie, re.DOTALL)
 movies = p.findall(html)
 if movies:
  conn = pymongo.Connection('localhost', 27017)
  movie_db = conn.dianying
  playlinks = movie_db.playlinks
  #print movies
  for movie in movies:
   #print movie
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
   values = dict(
    movie_title = movie[1],
    movie_url = movie[0],
    movie_site  = m_site,
    movie_type  = m_type
    )
   print values
   playlinks.insert(values)
   print "_" * 70
   NUM += 1
   print "%s : %d" % ("=" * 70, NUM)
 
 #else:
 # print "Not Find"
 
def getmovieinfo(url):
 html = gethtml(url)
 soup = BeautifulSoup(html)
 
 #pack pack_album album_cover
 divs = soup.find_all('div', {'class' : 'pack pack_album album_cover'})
 #print divs[0]
 
 #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a> 
 re_info = r'<a href="(.+?)" target="new" title="(.+?)" wl=".+?"> </a>'
 p_info = re.compile(re_info, re.DOTALL)
 m_info = p_info.findall(str(divs[0]))
 if m_info:
  return m_info
 else:
  print "Not find movie info"
 
 return m_info
 
 
def insertdb(movieinfo):
 global conn
 movie_db = conn.dianying_at
 movies = movie_db.movies
 movies.insert(movieinfo)
 
if __name__ == "__main__":
 global conn
 
 tags_url = "http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"
 #print tags_url
 tags_html = gethtml(tags_url)
 #print tags_html
 tag_urls = gettags(tags_html)
 #print tag_urls
 
 
 for url in tag_urls.items():
  print str(url[1]).encode('utf-8') #,url[0]
  maxpage = int(get_pages(str(url[1]).encode('utf-8')))
  print maxpage
 
  for x in range(0, maxpage):
   #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html
   m_url = str(url[1]).replace('0_20_0_-1_0.html', '')
   movie_url = "%s%d_20_0_-1_0.html" % (m_url, x)
   print movie_url
   movie_html = gethtml(movie_url.encode('utf-8'))
   #print movie_html
   getmovielist(movie_html)
   time.sleep(0.1)

您可能感兴趣的文档:

--结束END--

本文标题: 基于python实现的抓取腾讯视频所有电影的爬虫

本文链接: https://lsjlt.com/news/15031.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

基于python实现的抓取腾讯视频所有电影的爬虫

我搜集了国内10几个电影网站的数据，里面近几十W条记录，用文本没法存，mongodb学习成本非常低，安装、下载、运行起来不会花你5分钟时间。 # -*- coding: utf-8 -*- # by a...

99+

2022-06-04

爬虫腾讯电影
Python怎么实现抓取腾讯视频所有电影

这篇文章主要介绍“Python怎么实现抓取腾讯视频所有电影”，在日常操作中，相信很多人在Python怎么实现抓取腾讯视频所有电影问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python怎么实现抓取腾讯视频所...

99+

2023-06-30
Python实现抓取腾讯视频所有电影的示例代码

目录运行环境实现目的与思路目的思路完整代码视频缓存ts文件实现效果运行环境 IDE丨pycharm版本丨Python3.6系统丨Windows 实现目的与思路目的实现对腾讯视频目...

99+

2024-04-02
Python爬虫实现抓取电影网站信息并入库

目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下...

99+

2024-04-02
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250

安装部署Scrapy 在安装Scrapy前首先需要确定的是已经安装好了Python（目前Scrapy支持Python2.5，Python2.6和Python2.7）。官方文档中介绍了三种方法进行安装，我采用...

99+

2022-06-04

爬虫豆瓣框架
基于Python的电影票房爬取与可视化系统的设计与实现

博主介绍：✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联...

99+

2023-08-31

python django 电影票房爬取数据可视化前沿技术
如何使用Python爬虫实现抓取电影网站信息并入库

这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一.环境搭建1.下载安装包访问 Python官网下载地址：https://www.python.org/...

99+

2023-06-29
Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python：使用爬虫抓取网页中的视频并下载（完整源码）在今天的程序开发世界中，网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件，其中...

99+

2023-08-31

python 爬虫音视频
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

抓取豆瓣电影TOP100 一、分析豆瓣top页面，构建程序结构 1.首先打开网页http://movie.douban.com/top250?start，也就是top页面然后试着点击到top100...

99+

2022-06-04

爬虫豆瓣头像
Python爬虫爬取爱奇艺电影片库首页的实例代码

上篇文章给大家介绍了Python爬取爱奇艺电影信息代码实例感兴趣的朋友点击查看下。今天给大家介绍Python爬虫爬取爱奇艺电影片库首页，下面是实例代码，参考下： i...

99+

2024-04-02
基于python实现去除视频的水印

我们再搬运视频的时候常常会遇到视频有水印的问题如下下面就通过python来实现对视频水印的去除在pycharm新建一个项目，创建image，video目录其他不用必要条件在终端下载相关依赖包 pip install moviep...

99+

2023-09-14

python 音视频 numpy
利用python爬取m3u8格式视频的具体实现

目录m3u8原理脚本环境爬取步骤步骤的具体实现python细节处理说明参考代码总结 m3u8原理当我们在网页播放视频时，网页向服务器发起一个以.m3u8结尾的连接请求，服...

99+

2024-04-02
Python:基于Python爬虫技术的抢票程序及其实现

临近放假，相信我们每天都在群聊里或者朋友圈看到一些帮忙抢火车票的信息。看到朋友们抢回家的车票这么辛(bei)苦(can)，结合圈里一些前辈的指点，抱着学习的心态用Python做了一个简单的自动化抢票程...

99+

2023-09-01

python 爬虫开发语言测试工具学习
基于python实现垂直爬虫系统的方法详解

html_downloader from urllib import request def download(url): if url is None: r...

99+

2024-04-02
Python 基于Selenium实现动态网页信息的爬取

目录一、Selenium介绍与配置1.Selenium简介2. Selenium+Python环境配置二、网页自动化测试1.启动浏览器并打开百度搜索2.定位元素三、爬取动态网页的名人...

99+

2024-04-02
Python基于Selenium怎么实现动态网页信息的爬取

这篇文章主要介绍“Python基于Selenium怎么实现动态网页信息的爬取”，在日常操作中，相信很多人在Python基于Selenium怎么实现动态网页信息的爬取问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答...

99+

2023-06-22
基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析（hdfs、flume、hive、mysql等）、大屏可视化

目录项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计数据获取网络爬虫介绍豆瓣电影数据的采集数据预处理数据导入及环境配置Flume介绍Hive介绍MySQL介绍Pyecharts介绍环境配置及数据加载 ...

99+

2023-08-16

hadoop 数据分析 hdfs hive 豆瓣电影大数据原力计划
怎么用Python实现基于Pyqt5的简单电影搜索工具

这篇文章主要介绍“怎么用Python实现基于Pyqt5的简单电影搜索工具”，在日常操作中，相信很多人在怎么用Python实现基于Pyqt5的简单电影搜索工具问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用...

99+

2023-06-02
基于Python实现一键获取电脑浏览器的账号密码

目录导语相关文件开发工具环境搭建原理简介导语发现很多人在学校图书馆喜欢用电脑占座(以古度今，我好像好多年没去过学校图书馆了)，而且出去的时候经常不锁屏，为了让大家养成良好的习惯，我...

99+

2024-04-02
基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目（含数据库）

目录项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计网络爬虫介绍豆瓣电影数据的采集数据预处理大数据分析及可视化豆瓣影评结构化分析大屏可视化文本可视化总结每文一语 ...

99+

2023-08-31

python 数据分析数据库豆瓣电影豆瓣电影数据分析大数据原力计划