返回顶部
首页 > 资讯 > 后端开发 > Python >爬取某网站写的python代码
  • 258
分享到

爬取某网站写的python代码

2023-06-04 13:06:48 258人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

    代码如下:import requestsfrom pyquery import PyQueryimport reimport osi

    代码如下:

import requestsfrom pyquery import PyQueryimport reimport osimport csvimport datetime"""    说明:该代码是专门为爬取Http://www.kgtmall.com.cn/商品而设计的。    使用方法:        1、在本地提前安装好python3的环境;        2、直接运行本代码;        3、运行本代码完后,会在当前目录生成一个result.csv文件,该文件里面就存了爬取该站点的商品信息    注意事项:在本代码运行期间,不能打开result.csv文件,因为这样程序就写不进去数据了;只能等本代码            全部运行结束后,才能打开esult.csv文件进行查看。    """def get_html_text(url):    """    获取首页源代码    :param url:    :return:    """    r = requests.get(url)    return r.textdef get_one_level_class(home_url):    """    一级标题        母婴用品 http://www.kgtmall.com.cn/mall/list.PHP?catid=4        生活家居 http://www.kgtmall.com.cn/mall/list.php?catid=5    """    html = get_html_text(home_url)    jpy = PyQuery(html)    items = jpy('.menu_title a')    for line in items:        jpy = PyQuery(line)        one_level_url = jpy('a').attr('href')        one_level_title = jpy('a').text()        yield one_level_url, one_level_titledef get_two_level_class(home_url):    """    二级标题        母婴用品 营养辅食 http://www.kgtmall.com.cn/mall/search.php?catid=539        母婴用品 妈妈专区 http://www.kgtmall.com.cn/mall/search.php?catid=544        母婴用品 婴儿保健 http://www.kgtmall.com.cn/mall/search.php?catid=887    """    for one_level_url, one_level_title in get_one_level_class(home_url):        jpy = PyQuery(one_level_url)        items = jpy('.selector_cateGory li')        for line in items:            jpy = PyQuery(line)            two_level_url = jpy('a').attr('href')            two_level_title = jpy('a').text()            yield one_level_title, two_level_title, two_level_urldef get_pages(url):    """    获取页数    :return:    """    jpy = PyQuery(url)    pages = jpy('.pagination cite').text()    print('原pages:', pages)    try:        pages = int(re.findall('共.*?条/(.*)页', pages)[0])    except Exception as e:        print(e)        pages = 1    print('页码:', pages)    return pagesdef get_three_level_class(home_url):    """    三级标题        母婴用品 营养辅食 DHA http://www.kgtmall.com.cn/mall/search.php?catid=548        母婴用品 营养辅食 益生菌/初乳 http://www.kgtmall.com.cn/mall/search.php?catid=549        母婴用品 营养辅食 清火/开胃/驱虫 http://www.kgtmall.com.cn/mall/search.php?catid=550    """    for one_level_title, two_level_title, two_level_url in get_two_level_class(home_url):        jpy = PyQuery(two_level_url)        items = jpy('.selector_category li')        for line in items:            jpy = PyQuery(line)            three_level_title = jpy('a').text()            three_level_url = jpy('a').attr('href')            catid = re.findall('http://www.kgtmall.com.cn/mall/search.php\?catid=(.*)', three_level_url)[0]            pages = get_pages(three_level_url)            # for index in range(1, 3):            for index in range(1, pages + 1):                three_level_url_by_xiaoliang = 'http://www.kgtmall.com.cn/mall/search.php?kw=&list=0&catid={}&order=10&minprice=&maxprice=&page={}'.fORMat(                catid, index)                yield one_level_title, two_level_title, three_level_title, three_level_url_by_xiaoliangdef shop_title_and_url(home_url):    """    商品标题和url        母婴用品 营养辅食 DHA 澳洲直邮 澳大利亚RIFOLD 儿童DHA90粒(一月以上适用) http://www.kgtmall.com.cn/mall/show.php?itemid=28089        母婴用品 营养辅食 益生菌/初乳 澳大利亚 Maxigenes美可卓 全脂高钙奶粉(蓝胖子)1kg 两罐装 http://www.kgtmall.com.cn/mall/show.php?itemid=23486    """    for one_level_title, two_level_title, three_level_title, three_level_url_by_xiaoliang in get_three_level_class(home_url):        jpy = PyQuery(three_level_url_by_xiaoliang)        items = jpy('.list_img a')        for line in items:            jpy = PyQuery(line)            shop_url = jpy('a').attr('href')            shop_title = jpy('a img').attr('alt')            yield one_level_title, two_level_title, three_level_title, shop_title, shop_urldef get_shop_info(home_url, count):    for one_level_title, two_level_title, three_level_title, shop_title, shop_url in shop_title_and_url(home_url):        print('--排错:' + one_level_title, two_level_title, three_level_title, shop_title, shop_url)        jpy = PyQuery(shop_url)        price = jpy('.price').text()        # 条形码        bar_code = jpy('.bar_code dl dd p').text()        goods_detail = jpy('#content')        try:            guige = re.findall('规格:(.*)', goods_detail.text())[0]        except:            guige = '没有规格'        try:            chandi = re.findall('产地:(.*)', goods_detail.text())[0]        except:            chandi = '没有产地'        print(count, one_level_title, two_level_title, three_level_title, shop_title,  bar_code, chandi, guige,  price, shop_url)        row = ([one_level_title, two_level_title, three_level_title, shop_title,  bar_code, chandi, guige,  price, shop_url])        ppath = os.path.dirname(__file__)        csv_file = ppath + '/result.csv'        # newline是为了解决csv文件里面有多余的空行,encoding是为了解决写不进csv数据报字符集的报错        with open(csv_file, 'a', newline='', encoding='utf-8') as f:            writer = csv.writer(f)            writer.writerow(row)        count += 1def main():    # 记录一下开始时间    start_time = datetime.datetime.now()    home_url = 'http://www.kgtmall.com.cn/'    # 当前代码路径    ppath = os.path.dirname(__file__)    csv_file = ppath + '/result.csv'    headers = (['一级分类', '二级分类', '三级分类', '商品名称', '条码', '产地', '规格', '价格', '商品链接'])    # newline是为了解决csv文件里面有多余的空行,encoding是为了解决写不进csv数据报字符集的报错    with open(csv_file, 'w', newline='', encoding='utf-8') as f:        writer = csv.writer(f)        writer.writerow(headers)    count = 1    get_shop_info(home_url, 1)    # 记录一下结束时间    end_time = datetime.datetime.now()    # 记录程序执行用时    timediff = end_time - start_time    print('总共用时{}秒\n'.format(str(timediff.seconds)))    print('全部商品已经按需求完成!!!')if __name__ == '__main__':    main()

    运行后,会在当前目录下生成个result.csv文件,内容如下:

爬取某网站写的python代码

--结束END--

本文标题: 爬取某网站写的python代码

本文链接: https://lsjlt.com/news/237991.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 爬取某网站写的python代码
        代码如下:import requestsfrom pyquery import PyQueryimport reimport osi...
    99+
    2023-06-04
  • Python爬虫爬取美剧网站的实现代码
    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。但是,作为一个宅diao的我又...
    99+
    2022-06-04
    爬虫 美剧 代码
  • 用python爬取某个图片网站的图片
    爬取单张图片 # 爬取单张图片import requests # 导入requests库url = "https://file.lsjlt.com/upload/f/202309/12/54vwhbwy2re.jpg" # 图片地址re...
    99+
    2023-09-12
    python 爬虫
  • python爬取某网站原图作为壁纸
    不得不说 python真是一个神奇的东西,学三天就能爬网站 真香 完整代码 # -*- coding: utf-8 -*- """ Created on Wed May 26 1...
    99+
    2024-04-02
  • Python爬虫实战之用selenium爬取某旅游网站
    目录一、selenium实战二、打开艺龙网三、精确目标四、成功结语一、selenium实战 这里我们只会用到很少的selenium语法,我这里就不补充别的用法了,以实战为目的 二、打开艺龙网 可以直接点击这里进入:艺...
    99+
    2022-06-02
    Python selenium爬取网站 python爬虫
  • python爬取网站数据(含代码和讲解)
    提示:本次爬取是利用xpath进行,按文章的顺序走就OK的; 文章目录 前言 一、数据采集的准备 1.观察url规律 2.设定爬取位置和路径(xpath) 二、数据采集 1. 建立存放数据的dataframe 2. 开始爬取 3. 把...
    99+
    2023-09-06
    python javascript jupyter
  • python如何爬取某网站原图作为壁纸
    这篇文章主要介绍python如何爬取某网站原图作为壁纸,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!完整代码# -*- coding: utf-8 -*-""...
    99+
    2023-06-15
  • python爬虫:爬取网站视频
    python爬取百思不得姐网站视频:http://www.budejie.com/video/新建一个py文件,代码如下:#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re...
    99+
    2023-01-31
    爬虫 视频 网站
  • Python爬虫爬取网站图片
    此次python3主要用requests,解析图片网址主要用beautiful soup,可以基本完成爬取图片功能, 爬虫这个当然大多数人入门都是爬美女图片,我当然也不落俗套,首先也...
    99+
    2024-04-02
  • python爬取某站上海租房图片
    前言   对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本:pytho...
    99+
    2023-01-31
    站上 图片 python
  • Python轻松爬取写真网站全部图片
    以下是一个使用Python爬取写真网站全部图片的示例代码:```pythonimport requestsfrom bs4 impo...
    99+
    2023-09-15
    Python
  • Node.js实现爬取网站图片的示例代码
    目录涉及知识点cheerio简介什么是cheerio 安装cheerio准备工作核心代码示例截图涉及知识点 开发一个小爬虫,涉及的知识点如下所示: https模块,主要是用户获取网络...
    99+
    2024-04-02
  • 怎么用python爬取网站
    使用Python爬取网站的一般步骤如下:1. 导入所需的库,如`requests`或`urllib`用于发送HTTP请求,`beau...
    99+
    2023-08-31
    Python
  • 怎么用Python爬取某图网的图片
    本篇内容介绍了“怎么用Python爬取某图网的图片”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!相信很多设计小伙伴有好的灵感,但是没有好的设...
    99+
    2023-06-15
  • R语言怎样抓取某网站JSON数据的代码
    R语言怎样抓取某网站JSON数据的代码,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。R语言抓取某网站JSON数据的代码如下:library(RCurl)library(bi...
    99+
    2023-06-02
  • python 爬取壁纸网站的示例
    目录完整代码如下运行部分展示结果如下:本次爬虫用到的网址是: http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸,而且都是可以下载高清...
    99+
    2024-04-02
  • Python爬取网页的所有内外链的代码
    目录项目介绍代码大纲网站详情代码详情队列内链外链请求头项目介绍 采用广度优先搜索方法获取一个网站上的所有外链。 首先,我们进入一个网页,获取网页的所有内链和外链,再分别进入内链中,获...
    99+
    2024-04-02
  • Python爬虫代码怎么写
    这篇“Python爬虫代码怎么写”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python爬虫代码怎么写”文章吧。爬虫是什么...
    99+
    2023-07-05
  • Nginx反爬虫: 禁止某些User Agent抓取网站
    网站反爬虫的原因不遵守规范的爬虫会影响网站的正常使用网站上的数据是公司的重要资产爬虫对网站的爬取会造成网站统计数据的污染 常见反爬虫手段1. 根据 IP 访问频率封禁 IP2. 设置账号登陆时长,账号访问过多封禁设置账号的登录限制...
    99+
    2023-01-31
    爬虫 网站 Nginx
  • python 爬取国内小说网站
    目录原理先行实践篇完整代码原理先行 作为一个资深的小说爱好者,国内很多小说网站如出一辙,什么 🖊*阁啊等等,大都是 get 请求返回 html 内容,而且会有标志性的<dl><dd...
    99+
    2022-06-02
    python 爬取小说 python 爬取国内网站
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作