首页 > 资讯 > 后端开发 > Python >Python手拉手教你爬取贝壳房源数据的实战教程

573

分享到

Python手拉手教你爬取贝壳房源数据的实战教程

2024-04-02 19:04:59 573人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录一、爬虫是什么？二、使用步骤1.引入库2.读入数据3.随机选择一个ip地址构建代理服务器4.运行代码总结一、爬虫是什么？在进行大数据分析或者进行数据挖掘

一、爬虫是什么？

在进行大数据分析或者进行数据挖掘的时候，数据源可以从某些提供数据统计的网站获得，也可以从某些文献或内部资料中获得，但是这些获得数据的方式，有时很难满足我们对数据的需求，而手动从互联网中去寻找这些数据，则耗费的精力过大。此时就可以利用爬虫技术，自动地从互联网中获取我们感兴趣的数据内容，并将这些数据内容爬取回来，作为我们的数据源，从而进行更深层次的数据分析，并获得更多有价值的信息。在使用爬虫前首先要了解爬虫所需的库（requests）或者( urllib.request )，该库是为了爬取数据任务而创建的。

二、使用步骤

1.引入库

代码如下（示例）：


import os
import urllib.request
import random
import time
class BeikeSpider:
    def __init__(self, save_path="./beike"):
        """
        贝壳爬虫构造函数
        :param save_path: 网页保存目录
        """

2.读入数据

代码如下：


# 网址模式
        self.url_mode = "Http://{}.fang.ke.com/loupan/pg{}/"
        # 需爬取的城市
        self.cities = ["cd", "sh", "bj"]
        # 每个城市爬取的页数
        self.total_pages = 20
        # 让爬虫程序随机休眠5-10秒
        self.sleep = (5, 10)
        # 网页下载保存根目录
        self.save_path = save_path
        # 设置用户代理，是爬虫程序伪装成浏览器
        self.headers = {"User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}
        # 代理IP的信息
        self.proxies = [
            {"https": "123.163.67.50:8118"},
            {"https": "58.56.149.198:53281"},
            {"https": "14.115.186.161:8118"}
        ]

        # 创建保存目录
        if not os.path.exists(self.save_path):
            os.makedirs(self.save_path)
   def crawl(self):
        """
        执行爬取任务
        :return: None
        """

该处使用的url网络请求的数据。

3.随机选择一个ip地址构建代理服务器


 for city in self.cities:
            print("正在爬取的城市:", city)
            # 每个城市的网页用单独的目录存放
            path = os.path.join(self.save_path, city)
            if not os.path.exists(path):
                os.makedirs(path)

            for page in range(1, self.total_pages+1):
                # 构建完整的url
                url = self.url_mode.fORMat(city, page)
                # 构建Request对象, 将url和请求头放入对象中
                request = urllib.request.Request(url, headers=self.headers)

                # 随机选择一个代理IP
                proxy = random.choice(self.proxies)
                # 构建代理服务器处理器
                proxy_handler = urllib.request.ProxyHandler(proxy)
                # 构建opener
                opener = urllib.request.build_opener(proxy_handler)
                # 使用构建的opener打开网页
                response = opener.open(request)
                html = response.read().decode("utf-8")
                # 网页保存文件名(包含路径)
                filename = os.path.join(path, str(page)+".html")

                # 保存网页
                self.save(html, filename)
                print("第%d页保存成功！" % page)

                # 随机休眠
                sleep_time = random.randint(self.sleep[0], self.sleep[1])
                time.sleep(sleep_time)

该处除随机选择ip地址以外还会限制爬取数据的速度，避免暴力爬取。

4.运行代码


def save(self, html, filename):
        """
        保存下载的网页
        :param html: 网页内容
        :param filename: 保存的文件名
        :return:
        """

        f = open(filename, 'w', encoding="utf-8")
        f.write(html)
        f.close()

    def parse(self):
        """
        解析网页数据
        :return:
        """
        pass

if __name__ == "__main__":
    spider = BeikeSpider()
    spider.crawl()

在这里插入图片描述

运行结果就会这样，会保存在你的文件夹中。

总结

这里对文章进行总结：今天分析这波代码目的是为了让大家清晰明亮的了解python爬虫的运作，和大家一起学习
以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而urllib.request提供了大量能使我们快速便捷地爬取数据。

您可能感兴趣的文档:

--结束END--

本文标题: Python手拉手教你爬取贝壳房源数据的实战教程

本文链接: https://lsjlt.com/news/126531.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python手拉手教你爬取贝壳房源数据的实战教程

目录

一、爬虫是什么？

二、使用步骤

1.引入库

2.读入数据

3.随机选择一个ip地址构建代理服务器

4.运行代码

总结

Python手拉手教你爬取贝壳房源数据的实战教程

Python爬虫入门案例之爬取二手房源数据

python爬取链家二手房的数据

手把手教你Python抓取数据并可视化

JavaScript 代码优化实战教程：手把手教你优化你的代码

教你用Python爬取手机App数据!居然有人说爬不了APP

手把手教你实现Python连接数据库并快速取数的工具

手把手教你实现PyTorch的MNIST数据集

Android爬取网页JSON数据详细教程【新手向】

手把手教学，Python 游戏编程之实现飞机大战(含源代码)

亲手教你SpringBoot中的多数据源集成问题

python实战项目scrapy管道学习爬取在行高手数据

教你如何使用Python快速爬取需要的数据

【数据库优化实战指南】手把手教你优化数据库，让性能提升一倍！

Java大数据实时教程，让你成为数据处理的高手！

Java大数据实时教程，让你迎接数据时代的挑战！

数据库开发实战教程：使用Python连接Kerberos的Presto

Python爬虫获取数据保存到数据库中的超详细教程(一看就会)

Python中处理无效数据的详细教程（附案例实战）

Python数据库操作的实战指南：让数据库操作成为你的拿手好戏

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义