（转）Python3爬取豆瓣电影保存到_编程网

48行代码实现python3爬取豆瓣电影排行榜
代码基于python3，用到的类库有:

标题文字

requests:通过伪造请求头或设置代理等方式获取页面内容，参考文档
BeautifulSoup:对页面进行解析，提取数据，参考文档
PyMysql:Python3版本中用于操作mysql数据库，python2中则使用mysqldb，GitHub

pip安装用到的几个类库:

pip install requests
pip install bs4
pip install pymysql
分析豆瓣电影页面
页面分析:
爬取数据之前，我们都需要对页面进行分析，看我们可以从中提取到哪些数据，从下图我们看到豆瓣电影top250的页面结构，我们可以从中提取出排行榜(rank)、电影名字(name)、电影详情页链接(link)、电影海报(poster)、电影评分(score)、电影评论(quote)等，我在图中进行了标注

URL分析:
通过点击分页我们可以发现URL的格式为:https://movie.douban.com/top2...
其中num表示25的倍数的数字，最小是0也就是第一页，最大为225也就是最后一页，这可以作为我们爬取页面的限制条件，filter为过滤条件这里可不用管

代码
引入类库:

import pymysql
import requests
from bs4 import BeautifulSoup
定义爬取链接，%d用作数字占位:

baseUrl = "Https://movie.douban.com/top250?start=%d&filter="
定义爬取数据方法:

def get_movies(start):

url = baseUrl % start   # 拼接爬取链接
lists = []              # 存储此页面的电影数据
html = requests.get(url)    # requests请求页面内容，由于豆瓣没有限制爬取，所以不用设置伪请求头
soup = BeautifulSoup(html.content, "html.parser")   # BeautifulSoup解析页面内容
items = soup.find("ol", "grid_view").find_all("li") # 获取所有的电影内容
for i in items:
    movie = {}      # 临时存取电影的数据
    movie["rank"] = i.find("em").text   # 电影排行榜
    movie["link"] = i.find("div","pic").find("a").get("href")   # 电影详情页链接
    movie["poster"] = i.find("div","pic").find("a").find('img').get("src")  # 电影海报地址
    movie["name"] = i.find("span", "title").text    # 电影名字
    movie["score"] = i.find("span", "rating_num").text  # 电影评分
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else "" # 某些电影没有点评，没有就设为空
    lists.append(movie) # 保存到返回数组中
return lists

连接数据库并创建数据表:

db = pymysql.connect(host="localhost",user="root",passWord="root",db="test",charset="utf8mb4")
cursor = db.cursor() # 创建一个游标对象
cursor.execute("DROP TABLE IF EXISTS movies") # 如果表存在则删除

createTab = """CREATE TABLE movies(

id INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(20) NOT NULL,
rank VARCHAR(4) NOT NULL,
link VARCHAR(50) NOT NULL,
poster VARCHAR(100) NOT NULL,
score VARCHAR(4) NOT NULL,
quote VARCHAR(50)

)"""
cursor.execute(createTab) # 执行创建数据表操作
......
db.close() # 关闭数据库
将提取到的数据存储到数据表中:

lists = get_movies(start) # 获取提取到数据

for i in lists:
    # 插入数据到数据库sql语句，%s用作字符串占位
    sql = "INSERT INTO `movies`(`name`,`rank`,`link`,`poster`,`score`,`quote`) VALUES(%s,%s,%s,%s,%s,%s)"
    try:
        cursor.execute(sql, (i["name"], i["rank"], i["link"], i["poster"], i["score"], i["quote"]))
        db.commit()
        print(i[0]+" is success")
    except:
        db.rollback()
start += 25

完整代码:

import pymysql
import requests
from bs4 import BeautifulSoup
baseUrl = "https://movie.douban.com/top250?start=%d&filter="
def get_movies(start):

url = baseUrl % start
lists = []
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
items = soup.find("ol", "grid_view").find_all("li")
for i in items:
    movie = {}
    movie["rank"] = i.find("em").text
    movie["link"] = i.find("div","pic").find("a").get("href")
    movie["poster"] = i.find("div","pic").find("a").find('img').get("src")
    movie["name"] = i.find("span", "title").text
    movie["score"] = i.find("span", "rating_num").text
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else ""
    lists.append(movie)
return lists

if name == "__main__":

db = pymysql.connect(host="localhost",user="root",password="root",db="test",charset="utf8mb4")

（转）Python3爬取豆瓣电影保存到

标题文字

（转）Python3爬取豆瓣电影保存到

爬取豆瓣电影信息

爬取豆瓣电影排行top250

python爬取豆瓣电影TOP250数据

python爬取豆瓣top250的电影数

转载—Python抓取豆瓣电影

Python3 爬取豆瓣书籍 Xpat

用python爬取豆瓣前一百电影

Python爬虫爬取豆瓣电影之数据提取值

使用Python怎么爬取豆瓣电影名

python如何爬取豆瓣电影TOP250数据

Python爬取豆瓣电影方法是什么

Python爬虫怎么爬取豆瓣影评

怎么用python爬取豆瓣前一百电影

【python】爬取豆瓣电影排行榜Top250存储到Excel文件中【附源码】

13行代码实现爬取豆瓣250电影榜单

Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中

实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250

如何使用Selenium爬取豆瓣电影前100的爱情片

Python 通过xpath属性爬取豆瓣热映的电影信息

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义