返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫实现热门电影信息采集
  • 298
分享到

Python爬虫实现热门电影信息采集

2024-04-02 19:04:59 298人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录一、前言二、前期准备1、使用的软件2、需要用的模块3、模块安装问题4、如何配置PyCharm里面的python解释器?5、pycharm如何安装插件?三、思路1、

一、前言

好不容易女神喊我去看电影,但是她又不知道看啥,那么我当然得准备准备~

二、前期准备

1、使用的软件

Python 3.8 开源 免费的 (统一 3.8)

Pycharm YYDS python最好用的编辑器 不接受反驳…

2、需要用的模块

requests >>> 数据请求模块 pip install requests

parsel   >>> 数据解析模块 pip install parsel

csv

3、模块安装问题

模块安装问题:

1)、如何安装python第三方模块:

第一种:win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车。

第二种:在pycharm中点击Terminal(终端) 输入安装命令

2)安装失败原因:

第一种: pip 不是内部命令

解决方法: 设置环境变量

第二种: 出现大量报红 (read time out)

解决方法: 因为是网络链接超时, 需要切换镜像源。


清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云Http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/
例如:pip3 install -i https://pypi.doubaNIO.com/simple/ 模块名

第三种: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入。

解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

4、如何配置pycharm里面的python解释器?

如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径

5、pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件);
  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation;
  3. 选择相应的插件点击 install(安装) 即可;
  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效;

三、思路

爬虫获取数据是要分析服务器返回的数据内容,无论你爬取任何网站数据,都是可以按照这个几步骤来。

1、明确需求

我们要爬取的内容是什么 https://movie.douban.com/top250,要分析我们的想要数据, 可以从哪里获取/哪里来的… (数据来源分析)

开发工具进行抓包(数据包)分析,静态网页/网页上面看到的数据内容,在网页源代码里面都有。

2、发送请求

开发者工具里面headers ,对于那个网址发送请求,发送什么样的请求,携带那些请求头参数。

3、获取数据

获取服务器返回的数据内容,看服务器数据格式是什么样的,或者说我们想要的数据是什么样的;

获取文本数据 response.text

获取服务器JSON字典数据 response.json()

获取二进制数据 response.content

保存视频/音频/图片/特定格式的文件内容, 都是获取二进制数据;

4、解析数据

提供我们想要的数据内容

5、保存数据

保存本地

四、代码部分 


import requests  # 数据请求模块 pip install requests
import parsel  # 数据解析模块 pip install parsel
import csv  # 保存表格数据

f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')
# 快速批量替换 全选内容 使用正则表达式 替换内容
csv_writer = csv.DictWriter(f, fieldnames=[
    '电影名字',
    '导演',
    '主演',
    '年份',
    '国家',
    '电影类型',
    '评论人数',
    '评分',
    '概述',
    '详情页',
])
csv_writer.writeheader()
for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={page}&filter='
    # headers 请求头 用来伪装python代码 为了防止爬虫程序被服务器识别出来,
    # User-Agent 浏览器的基本标识 用户代理 直接复制粘贴的
    #Python学习交流群872937351 ,免费领取视频/电子书/解答等等
    # 披着羊皮的狼  爬虫程序 >>> 狼  headers >>> 羊皮  服务器数据 >>> 羊圈
    headers = {
        'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 发送请求 get
    # 通过requests数据请求模块里面get请求方法 对于 url以及发送请求并且携带header请求头, 最后用response变量接收返回数据
    response = requests.get(url=url, headers=headers)
    # 获取数据
    # print(response.text)
    # 解析数据 re正则表达式 CSS选择器 xpath 那一种更方便 更加舒服 就用哪一个
    # json 键值对取值
    # 提取我们想要的数据内容
    # 把获取下来的 response.text 网页字符串数据 转成selector 对象
    selector = parsel.Selector(response.text)
    # <Selector xpath=None data='<html lang="zh-CN" class="ua-windows ...'> 对象    # css选择器 根据标签属性提取数据
    # 第一次解析数据, 获取所有li标签
    lis = selector.css('.grid_view li')  # css选择器语法
    # selector.xpath('//*[@class="grid_view"]/li') # xpath写法
    # [] 列表, 如果说我想要一一提取列表里面的元素 怎么做?
    for li in lis:
        try:
            # span:nth-child(1) 组合选择器  表示的选择第几个span标签
            # 1 选择第一个span标签 text 获取标签文本数据
            title = li.css('.hd a span:nth-child(1)::text').get()
            href = li.css('.hd a::attr(href)').get()  # 详情页
            # li.xpath('//*[@class="hd"]/a/span(1)/text()').get()
            # get返回字符串数据 getall 是返回列表数据
            # get获取第一个标签数据 getall 获取所有的
            move_info = li.css('.bd p::text').getall()
            actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值
            # print(actor_list)
            date_list = move_info[1].strip().split('/')  # 列表索引位置取值
            director = actor_list[0].replace('导演: ', '').strip()  # 导演
            actor = actor_list[1].replace('主演: ', '').replace('/', '').replace('...', '') # 演员
            date = date_list[0].strip()  # 年份
            country = date_list[1].strip()  # 国家
            move_type = date_list[2].strip()  # 电影类型
            comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  # 评论人数
            star = li.css('.star span:nth-child(2)::text').get()  # 星级
            world = li.css('.inq::text').get()  # 概述
            # 字符串的高级方法
            # replace() 字符串替换的方法  strip() 去除字符串左右两端的空格 split() 分割 之后返回的列表
            # 字符串如何去除空格呢?
            # print(title, actor_list, date_list)
            dit = {
                '电影名字': title,
                '导演': director,
                '主演': actor,
                '年份': date,
                '国家': country,
                '电影类型': move_type,
                '评论人数': comment,
                '评分': star,
                '概述': world,
                '详情页': href,
            }
            csv_writer.writerow(dit)
            print(title, director, actor, date, country, move_type, comment, star, world, href, sep=' | ')
        except:
            pass

到此这篇关于python爬虫实现热门电影信息采集的文章就介绍到这了,更多相关Python爬虫采集信息内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python爬虫实现热门电影信息采集

本文链接: https://lsjlt.com/news/159254.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python爬虫实现热门电影信息采集
    目录一、前言二、前期准备1、使用的软件2、需要用的模块3、模块安装问题4、如何配置pycharm里面的python解释器?5、pycharm如何安装插件?三、思路1、...
    99+
    2024-04-02
  • Python爬虫怎么实现热门电影信息采集
    这篇文章主要介绍“Python爬虫怎么实现热门电影信息采集”,在日常操作中,相信很多人在Python爬虫怎么实现热门电影信息采集问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么实现热门电影信...
    99+
    2023-06-21
  • Python趣味爬虫之爬取爱奇艺热门电影
    目录一、首先我们要找到目标二、F12查看网页源代码三、进行代码实现,获取想要资源。四、查看现象一、首先我们要找到目标 找到目标先分析一下网页很幸运这个只有一个网页,不需要翻页。 二...
    99+
    2024-04-02
  • Python爬虫实现抓取电影网站信息并入库
    目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下...
    99+
    2024-04-02
  • Python爬虫采集Tripadvisor数据案例实现
    目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容 详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据...
    99+
    2024-04-02
  • Python爬虫实战演练之采集拉钩网招聘信息数据
    目录本文要点:环境介绍本次目标爬虫块使用内置模块:第三方模块:代码实现步骤: (爬虫代码基本步骤)开始代码导入模块发送请求解析数据加翻页保存数据运行代码,得到数据本文要点: ...
    99+
    2024-04-02
  • 如何使用Python爬虫实现抓取电影网站信息并入库
    这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一.环境搭建1.下载安装包访问 Python官网下载地址:https://www.python.org/...
    99+
    2023-06-29
  • Python 通过xpath属性爬取豆瓣热映的电影信息
    目录前言页面分析实现过程创建项目Item定义中间件操作定义爬虫定义数据管道定义配置设置执行验证总结前言 声明一下:本文主要是研究使用,没有别的用途。 GitHub仓库地址:githu...
    99+
    2024-04-02
  • 用Python实现爬取百度热搜信息
    目录前言库函数准备数据爬取网页爬取数据解析数据保存总结前言 何为爬虫,其实就是利用计算机模拟人对网页的操作 例如 模拟人类浏览购物网站 使用爬虫前一定要看目标网站可刑不可刑 :-) ...
    99+
    2024-04-02
  • Python爬虫实例:爬取猫眼电影——破
     字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼...
    99+
    2023-01-30
    爬虫 猫眼 实例
  • Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格
    本篇内容主要讲解“Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格”吧!...
    99+
    2023-06-16
  • node+experss实现爬取电影天堂爬虫
    上周写了一个node+experss的爬虫小入门。今天继续来学习一下,写一个爬虫2.0版本。 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂。因为每个周末都会在电影天堂下载一部电影来看看。 talk is...
    99+
    2022-06-04
    爬虫 天堂 电影
  • 使用python怎么爬取爱奇艺热门电影
    这篇文章将为大家详细讲解有关使用python怎么爬取爱奇艺热门电影,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、首先我们要找到目标找到目标先分析一下网页(url:https://list...
    99+
    2023-06-15
  • Python如何通过xpath属性爬取豆瓣热映的电影信息
    本篇文章给大家分享的是有关Python如何通过xpath属性爬取豆瓣热映的电影信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言声明一下:本文主要是研究使用,没有别的用途。...
    99+
    2023-06-25
  • 用Python爬取2022春节档电影信息
    目录前提条件相关介绍实验环境具体步骤目标网站分析网站代码实现输出结果总结前提条件 熟悉HTML基础语句 熟悉Xpath基础语句 相关介绍 Python是一种跨平台的计算机程序设计语言...
    99+
    2024-04-02
  • 教你怎么用python爬取爱奇艺热门电影
    目录一、首先我们要找到目标二、F12查看网页源代码三、进行代码实现,获取想要资源。四、查看现象一、首先我们要找到目标 找到目标先分析一下网页(url:https://list.iq...
    99+
    2024-04-02
  • Python采集电影评论实战示例
    目录数据采集发送请求解析数据获取内容输出内容总结数据采集 我们上一篇介绍了,如何采集王者皮肤,买不起皮肤,当个桌面壁纸挺好的。我们今天来学习如何采集电影评论,看看这个电影好不好看。 ...
    99+
    2023-05-16
    Python采集电影评论 Python采集
  • 怎么用Python实现爬取百度热搜信息
    小编给大家分享一下怎么用Python实现爬取百度热搜信息,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!前言何为爬虫,其实就是利用计算机模拟人对网页的操作例如 模拟人类浏览购物网站使用爬虫前一定要看目标网站可刑不可刑 :-)...
    99+
    2023-06-26
  • bs4爬虫实战三:获取电影信息并存入mysql数据库
    目标分析这次爬虫的目标网站是:http://dianying.2345.com,爬虫的搜索目标仅限于今年的电影,在网站打开搜索,在年代中选择2018 获取页面的过程在页面的下方单击"下一页",发现URL变成了http:/...
    99+
    2023-01-30
    爬虫 实战 数据库
  • Python爬虫实战之爬取某宝男装信息
    目录知识点介绍实现步骤1. 分析目标网站2. 获取单个商品界面3. 获取多个商品界面4. 获取商品信息5. 保存到MySQL数据库完整代码知识点介绍 本次爬取用到的知识点有: 1. ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作