使用Scrapy框架爬取网页并保存到Mysql的实现

2024-04-02 19:04:59 332人浏览泡泡鱼

摘要

大家好，这一期阿彬给大家分享scrapy爬虫框架与本地Mysql的使用。今天阿彬爬取的网页是虎扑体育网。（1）打开虎扑体育网，分析一下网页的数据，使用xpath定位元素。 &nb

大家好，这一期阿彬给大家分享scrapy爬虫框架与本地Mysql的使用。今天阿彬爬取的网页是虎扑体育网。

（1）打开虎扑体育网，分析一下网页的数据，使用xpath定位元素。

（2）在第一部分析网页之后就开始创建一个scrapy爬虫工程，在终端执行以下命令：
“scrapy startproject huty（注：‘hpty’是爬虫项目名称）”,得到了下图所示的工程包：

（3）进入到“hpty/hpty/spiders”目录下创建一个爬虫文件叫‘“sww”，在终端执行以下命令： “scrapy genspider sww” （4）在前两步做好之后，对整个爬虫工程相关的爬虫文件进行编辑。 1、setting文件的编辑：

把君子协议原本是True改为False。

再把这行原本被注释掉的代码把它打开。

2、对item文件进行编辑，这个文件是用来定义数据类型，代码如下：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class HptyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
 
    球员 = scrapy.Field()
    球队 = scrapy.Field()
    排名 = scrapy.Field()
    场均得分 = scrapy.Field()
    命中率 = scrapy.Field()
    三分命中率 = scrapy.Field()
    罚球命中率 = scrapy.Field()

3、对最重要的爬虫文件进行编辑（即“hpty”文件），代码如下：

import scrapy
from ..items import HptyItem
 
 
class SwwSpider(scrapy.Spider):
    name = 'sww'
    allowed_domains = ['Https://nba.hupu.com/stats/players']
    start_urls = ['https://nba.hupu.com/stats/players']
 
    def parse(self, response):
        whh = response.xpath('//tbody/tr[not(@class)]')
        for i in whh:
            排名 = i.xpath(
                './td[1]/text()').extract()# 排名
            球员 = i.xpath(
                './td[2]/a/text()').extract()  # 球员
            球队 = i.xpath(
                './td[3]/a/text()').extract()  # 球队
            场均得分 = i.xpath(
                './td[4]/text()').extract()  # 得分
 
            命中率 = i.xpath(
                './td[6]/text()').extract()  # 命中率
            三分命中率 = i.xpath(
                './td[8]/text()').extract()  # 三分命中率
            罚球命中率 = i.xpath(
                './td[10]/text()').extract()  # 罚球命中率
 
            data = HptyItem(球员=球员, 球队=球队, 排名=排名, 场均得分=场均得分, 命中率=命中率, 三分命中率=三分命中率, 罚球命中率=罚球命中率)
            yield data

4、对pipelines文件进行编辑，代码如下：

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from cursor import cursor
from itemadapter import ItemAdapter
import pymysql
 
 
class HptyPipeline:
    def process_item(self, item, spider):
        db = pymysql.connect(host="Localhost", user="root", passwd="root", db="sww", charset="utf8")
        cursor = db.cursor()
        球员 = item["球员"][0]
        球队 = item["球队"][0]
        排名 = item["排名"][0]
        场均得分 = item["场均得分"][0]
        命中率 = item["命中率"]
        三分命中率 = item["三分命中率"][0]
        罚球命中率 = item["罚球命中率"][0]
        # 三分命中率 = item["三分命中率"][0].strip('%')
        # 罚球命中率 = item["罚球命中率"][0].strip('%')
 
        cursor.execute(
            'INSERT INTO nba(球员,球队,排名,场均得分,命中率,三分命中率,罚球命中率) VALUES (%s,%s,%s,%s,%s,%s,%s)',
            (球员, 球队, 排名, 场均得分, 命中率, 三分命中率, 罚球命中率)
        )
        # 对事务操作进行提交
        db.commit()
        # 关闭游标
        cursor.close()
        db.close()
        return item

（5）在scrapy框架设计好了之后，先到mysql创建一个名为“sww”的数据库，在该数据库下创建名为“nba”的数据表，代码如下： 1、创建数据库

create database sww;

2、创建数据表

create table nba (球员 char(20),球队 char(10),排名 char(10),场均得分 char(25),命中率 char(20),三分命中率 char(20),罚球命中率 char(20));

3、通过创建数据库和数据表可以看到该表的结构：

（6）在mysql创建数据表之后，再次回到终端，输入如下命令：“scrapy crawl sww”，得到的结果

到此这篇关于使用Scrapy框架爬取网页并保存到Mysql的实现的文章就介绍到这了,更多相关Scrapy爬取网页并保存内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: 使用Scrapy框架爬取网页并保存到Mysql的实现

本文链接: https://lsjlt.com/news/119217.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

使用Scrapy框架爬取网页并保存到Mysql的实现

大家好，这一期阿彬给大家分享Scrapy爬虫框架与本地Mysql的使用。今天阿彬爬取的网页是虎扑体育网。（1）打开虎扑体育网，分析一下网页的数据，使用xpath定位元素。 &nb...

99+

2024-04-02
Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中

这个框架关注了很久，但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性，等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来。最近想学...

99+

2024-04-02
怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

这篇文章主要介绍“怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库”，在日常操作中，相信很多人在怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用...

99+

2023-06-17
使用Python的Scrapy框架十分钟爬取美女图

简介 scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫，官方给出的一个简单例子足以证明其强大：快速开发下面开始10分钟倒计时： ...

99+

2022-06-04

十分钟美女图框架
利用Java如何实现爬取网络图片并保存

这篇文章给大家介绍利用Java如何实现爬取网络图片并保存，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。具体内容如下package getUrlPic;import java.io.ByteArrayOutputStre...

99+

2023-05-31

java ava
使用Python怎么爬取网站图片并保存

这期内容当中小编将会给大家带来有关使用Python怎么爬取网站图片并保存，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。第一步，导入模块import requestsfrom bs4&n...

99+

2023-06-06
Scrapy将数据保存到Excel和MySQL中的方法实现

目录1. Excel1.1 openpyxl1.1.1 代码说明1.1.2 注意1.2 pandas1.2.1 代码说明1.2.2 常见错误1.3 openpyxl和pandas对比2. mysql2.1 代码说明2.2...

99+

2023-02-28

Scrapy数据保存到Excel Scrapy数据保存到MySQL
Python3使用requests包抓取并保存网页源码的方法

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考，具体如下：使用Python 3的requests模块抓取网页源码并保存到文件示例： import re...

99+

2022-06-04

源码并保存网页
Python用requests-html爬取网页的实现

目录1. 开始2. 原理3. 元素定位css 选择器4. CSS 简单规则5. Xpath简单规则6. 人性化操作7. 加载 js8. 总结1. 开始 Python 中可以进行网页解...

99+

2024-04-02
如何使用python实现简单爬取网页数据并导入MySQL中的数据库

前言：要使用 Python 爬取网页数据并将数据导入 MySQL 数据库，您需要使用 Requests 库进行网页抓取，使用 BeautifulSoup 库对抓取到的 HTML 进行解析，并使用 PyMySQL 库与 MySQL 进行交互。...

99+

2023-10-18

python 数据库爬虫
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
使用scrapy简易爬取豆瓣9分榜单图书并存放在mysql数据库中

注：大部分内容参考http://www.cnblogs.com/voidsky/p/5490798.html，但原文不是存在数据库中。首先创建一个项目douban9fenkuku@ubuntu:~/pach...

99+

2024-04-02
Android实现从网络获取图片显示并保存到SD卡的方法

本文实例讲述了Android实现从网络获取图片显示并保存到SD卡的方法。分享给大家供大家参考，具体如下：问题：如何不断获取图片并显示出来，达到视频的效果？代码： pub...

99+

2022-06-06

方法图片 sd sd卡 Android
django将图片保存到mysql数据库并展示在前端页面的实现

小编使用python中的django框架来完成！ 1，首先用pycharm创建django项目并配置相关环境这里小编默认项目都会创建 settings.py中要修改的两处配置 ...

99+

2024-04-02
使用Post方法模拟登陆爬取网页的实现方法

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：import java.io.BufferedReader;import java.io.InputStreamReader;import java.i...

99+

2023-05-31

java post 模拟登陆
将图片保存到mysql数据库并展示在前端页面的实现代码

目录1，首先用pycharm创建django项目并配置相关环境2，创建表3，上传图片功能4，展示图片功能5，删除图片功能小编使用python中的django框架来完成！ 1，首先用p...

99+

2024-04-02
使用Java中的并发库和框架实现高并发

文章目录使用Java中的并发库和框架实现高并发背景介绍技术原理及概念基本概念解释技术原理介绍 Java多线程Java线程池Java异步编程Java并发控制相关技术比较实现步骤与流程准备...

99+

2023-10-06

java jvm 网络
python Selenium爬取内容并存储至MySQL数据库的实现代码

前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常，在使用Selenium爬虫爬取数据后，需要存储在TXT文本中，但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium爬取我...

99+

2022-06-04

代码数据库内容
使用nodejs实现网页爬虫功能的案例

这篇文章主要介绍了使用nodejs实现网页爬虫功能的案例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。网页源码使用http.get()方法获取网页源码，以hao123网站的头...

99+

2023-06-06
Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python：使用爬虫抓取网页中的视频并下载（完整源码）在今天的程序开发世界中，网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件，其中...

99+

2023-08-31

python 爬虫音视频