我的第一个Scrapy 程序 - 爬取当当网信息

2024-04-02 19:04:59 343人浏览薄情痞子

摘要

前面已经安装了scrapy，下面来实现第一个测试程序。概述 Scrapy是一个爬虫框架，他的基本流程如下所示（下面截图来自互联网）简单的说，我们需要写一个item文件，定义返回的数据结构；写一个spi

前面已经安装了scrapy，下面来实现第一个测试程序。

概述

Scrapy是一个爬虫框架，他的基本流程如下所示（下面截图来自互联网）

我的第一个Scrapy 程序 - 爬取当当网信息

简单的说，我们需要写一个item文件，定义返回的数据结构；写一个spider文件，具体爬取的数据程序，以及一个管道 pipeline 文件，作为后续操作，比如保存数据等等。

下面以当当网为例，看看怎么实现。
这个例子里面我想爬取的内容是前面20页的羽绒服产品，包括产品名字，链接和评论数。

过程

1. 创建一个Scrapy的项目

scrapy startproject dangdang

2. 创建一个爬虫文件**

scrapy genspider -t basic dd dangdang.com

这样他会自动创建一个爬虫文件，结构如下所示：
我的第一个Scrapy 程序 - 爬取当当网信息

3. 编写items.py

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class Dangdangitem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    title=scrapy.Field()
    url=scrapy.Field()
    comment=scrapy.Field()

4. 编写爬虫文件dd.py

前面第二步已经自动生成了一个模板，我们直接修改就行。
dd.py

# -*- coding: utf-8 -*-

import scrapy
from dangdang.items import DangdangItem
from scrapy.Http import Request

class DdSpider(scrapy.Spider):
    name = 'dd'
    allowed_domains = ['dangdang.com']
    start_urls = ['http://cateGory.dangdang.com/pg1-cid4010275.html']

    def parse(self, response):

        item=DangdangItem()
        item['title']=response.xpath(u"//a[@dd_name='单品标题']/text()").extract()
        item['url']=response.xpath("//a[@dd_name='单品标题']/@href").extract()
        item['comment']=response.xpath("//a[@dd_name='单品评论']/text()").extract()
        text = response.body
        # content_type = chardet.detect(text)
        # if content_type['encoding'] != 'UTF-8':
        #     text = text.decode(content_type['encoding'])
        # text = text.encode('utf-8')
        # print(text)

        yield item

        for i in range(2,20):
            url='http://category.dangdang.com/pg%d-cid4010275.html'%i
            yield Request(url,callback=self.parse)

5. 编写pipelines.py

为了使用pipeline，配置文件需要做个小修改，我顺便关掉了对robot文件的确认
settings.py

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
   'dangdang.pipelines.DangdangPipeline': 300,
}

pipeline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pyMysql

class DangdangPipeline(object):
    def process_item(self, item, spider):
        conn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')
        for i in range(0,len(item['title'])):
            title=item['title'][i]
            link=item['url'][i]
            comment=item['comment'][i]

            print(type(title))
            print(title)
            # sql="insert into dd(title,link,comment) values ('"+title+"','"+link+"','"+comment+"')"
            sql = "insert into dd(title,link,comment) values('" + title + "','" + link + "','" + comment + "')"
            try:
                conn.query(sql)
            except Exception as err:
                pass
        conn.close()

        return item

6. 创建数据库和表

我最后的数据要保存到mysql里面，python里面可以通过pymysql进行操作。我提前在mysql命令行界面里面创建了一个数据库和空表

mysql> create database dangdang;
mysql> create table dd(id int auto_increment primary, title varchar(100), link varchar(100), comment varchar(32));

7. 执行

scrapy crawl dd
如果不想看日志可以使用
scrapy crawl dd --nolog

8. 检测结果

test.py

#！/usr/bin/env Python
#! -*- coding:utf-8 -*-
# Author: Yuan Li
import pymysql
conn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')

cursor = conn.cursor(cursor=pymysql.cursors.DictCursor)
#SQL查询
cursor.execute("select * from dd")
row=cursor.fetchall()
for i in row:
    print(i)
conn.close()

结果测试成功

我的第一个Scrapy 程序 - 爬取当当网信息

您可能感兴趣的文档:

--结束END--

本文标题: 我的第一个Scrapy 程序 - 爬取当当网信息

本文链接: https://lsjlt.com/news/40699.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

我的第一个Scrapy 程序 - 爬取当当网信息

前面已经安装了Scrapy，下面来实现第一个测试程序。概述 Scrapy是一个爬虫框架，他的基本流程如下所示（下面截图来自互联网）简单的说，我们需要写一个item文件，定义返回的数据结构；写一个spi...

99+

2024-04-02
我的第一个爬虫，爬取北京地区短租房信息

# 导入程序所需要的库。import requestsfrom bs4 import BeautifulSoupimport time# 加入请求头伪装成浏览器headers = { #通过Chrome浏览器复制User-Agent ...

99+

2023-01-30

北京地区第一个爬虫
第一个爬虫——豆瓣新书信息爬取

本文记录了我学习的第一个爬虫程序的过程。根据《Python数据分析入门》一书中的提示和代码，对自己的知识进行查漏补缺。在上爬虫程序之前补充一个知识点：User-Agent。它是Http协议中的一部分，属于头域的组成部分，User...

99+

2023-01-31

第一个爬虫豆瓣
微信小程序如何异步获取当前storage的相关信息

这篇“微信小程序如何异步获取当前storage的相关信息”除了程序员外大部分人都不太理解，今天小编为了让大家更加理解“微信小程序如何异步获取当前storage的相关信息”，给大家总结了以下内容，具有一定借鉴价值，内容详细步骤清晰，细节处理妥...

99+

2023-06-26
微信小程序如何同步获取当前storage的相关信息

这篇文章主要为大家展示了微信小程序如何同步获取当前storage的相关信息，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带大家一起来研究并学习一下“微信小程序如何同步获取当前storage的相关信息”这篇文章吧。同步获取当前...

99+

2023-06-26
我的第一个java应用程序

昏天黑地地写了几天代码,终于完成了我的第一个java应用程序虽然挺弱的一个东西,不过也是费了我的牛劲了具体他是个什么东西呢..其实就是你输入日期然后查星座..这个不难,不过主要还是得自己编个界面,把界面和功能连起来.跟管理信息系统的...

99+

2023-06-03
PyQt5爬取12306车票信息程序的实现

目录1、搭载QT环境2、主窗体设置3、下载网站文件4、车票信息的请求与显示5、在主窗体中显示查票信息1、搭载QT环境按win+R输入 pip install pyqt5 下载QT5...

99+

2024-04-02
第一个微信小程序的诞生

🐧主页详情：Choice~的个人主页 📢作者简介：🏅物联网领域创作者🏅 and 🏅阿里专家博主🏅 and 🏅华为云享专家&...

99+

2023-08-17

微信小程序小程序
微信小程序获取当前位置的详细步骤

目录1 腾讯位置开发基本步骤1.1 申请开发者密钥（key）1.2 下载微信小程序JavaScriptSDK1.3 安全域名设置1.4 微信小程序设置隐私权限2 获取位置信息3 权限...

99+

2022-12-08

微信小程序获取当前位置信息小程序如何获取位置信息微信小程序如何获取位置信息
uniapp微信小程序获取当前位置信息、经纬度转换、导航地图实现

1、调用接口,官网文档是这样写的 uni.getLocation({type: 'wgs84',success: function (res) {console.log('当前位置的经度：' + res.longitude);console...

99+

2023-09-08

微信小程序 uni-app 小程序
写一个爬取板块资金流的Python程序

通过上面爬取股票个股资金流的例子，大家应该已经能够学会自己编写爬取代码。现在巩固一下，做个相似的小练习题。要动手自己编写Python程序，爬取网上板块的资金流。爬取网址为http://data.eastmoney.com/bkzj/hy.h...

99+

2023-05-14

代码 Python 爬取板块资金流
微信小程序怎么通过API获取当前位置的经纬度

本篇内容介绍了“微信小程序怎么通过API获取当前位置的经纬度”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！效果图：wxml文件<vie...

99+

2023-06-26
我在 Golang 中的程序在文件中打印第一个输入两次

php小编西瓜在Golang中编写程序时，遇到了一个有趣的问题：如何在文件中打印第一个输入两次。这个问题看似简单，但实际上涉及到了如何读取输入、处理字符串和文件操作等多个方面的知识。通...

99+

2024-02-10
JavaScript网页中如何实现一个计算当年还剩多少时间的倒数计时程序

这篇文章主要介绍JavaScript网页中如何实现一个计算当年还剩多少时间的倒数计时程序，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！实例如下：function count...

99+

2024-04-02
微信小程序第一节 —— 自定义顶部、底部导航栏以及获取胶囊体位置信息。

一、前言 dai ga hou啊！我是 😘😘😘是江迪呀。我们在进行微信小程序开发时，常常需要自定义一些东西，比如自定义顶部导航、自定义底部导航等等。那么...

99+

2023-09-10

微信小程序小程序 javascript
【JavaSE专栏82】线程中断，发送一个中断信号给另一个线程，让它中断当前的执行

作者主页：Designer 小郑作者简介：3年JAVA全栈开发经验，专注JAVA技术、系统定制、远程指导，致力于企业数字化转型，CSDN学院、蓝桥云课认证讲师。主打方向：Vue、SpringB...

99+

2023-09-07

java 后端开发语言多线程 jvm 线程中断线程原力计划
uni.app开发小程序如何获取当前经纬度、位置信息以及如何重新发起授权定位

uni.app开发小程序如何获取当前经纬度、位置信息以及如何重新发起授权定位前提先去微信小程序后台申请 wx.getLocation接口1.引入下载的高德小程序SDK2.data中定义所需变量3.onLoad中获取实例并调用获...

99+

2023-08-30

小程序 uni-app
如何利用C++实现一个简单的网页爬虫程序？

如何利用C++实现一个简单的网页爬虫程序？简介：互联网是一个信息的宝库，而通过网页爬虫程序可以轻松地从互联网上获取大量有用的数据。本文将介绍如何使用C++编写一个简单的网页爬虫程序，以及一些常用的技巧和注意事项。一、准备工作安装C++编译器...

99+

2023-11-04

C++ 网页爬虫程序实现
【小程序】快来开发你的第一个微信小游戏（详细流程）

🥳 作者：伯子南 😎 坚信：好记性不如乱笔头，独乐乐不如众乐乐 💪 个人主页：https://blog.csdn.net/qq_34577234spm=1010.2135.3001.54...

99+

2023-08-16

小程序微信微信小程序
python获取当前时间(年-月-日时:分:秒:毫秒)，提取当前日期/时间数字，获取程序运行的时间差(时:分:秒)，让程序停止xx秒【两种方法，第二种方法精度较高】

目录》》》第一种方法，代码如下：（获取当前时间，提取当前日期/时间数字）》》》第二种方法，代码如下：（获取当前时间，提取日期/时间数字，获取时间差【时:分:秒】）》》》第一种方法，代码如下：（获取当前时间，提取当前日期/时间数字）...

99+

2023-09-12

python 后端爬虫经验分享 django