返回顶部
首页 > 资讯 > 后端开发 > Python >Python怎么实现数据挖掘
  • 574
分享到

Python怎么实现数据挖掘

2023-06-02 05:06:18 574人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容主要讲解“python怎么实现数据挖掘”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么实现数据挖掘”吧!这个selenium模块主要是应对我们自动浏览网页数据所需要用的,让

本篇内容主要讲解“python怎么实现数据挖掘”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习Python怎么实现数据挖掘”吧!

这个selenium模块主要是应对我们自动浏览网页数据所需要用的,让程序来执行半智能,前提你要教会它去做什么事情!

直接介绍此次所需要用到的家族模块:

1 from selenium import WEBdriver2 import time3 from selenium.webdriver.common.keys import Keys4 from selenium.webdriver.common.action_chains import ActionChains5 from selenium.webdriver.common.by import By

一、每一个解释一下哈,按顺序对号:

主模块的嵌入,主要是应对控制程序自动打开浏览器浏览网页功能。

作为开发人员,尤其是对网页自动化测试开发工具必须需要time模块来制约程序的访问时间,因为可能网站会直接把你IP封掉。

selenium 模块家族成员Keys,此成员是应当以模拟键盘操作,应对模拟输入用户登录名和密码,或者价值数据索引输入。

selenium 模块家族成员ActionChains,它则是应对模拟鼠标操作,对与鼠标的双击,单击,左右键,应对我们翻页,搜索按钮的点击功能。

selenium 模块家族成员By,这个则是我们要教会它所要做的事情,也是我们数据挖掘又要用到的核心价值功能之一,应对价值数据抓取。

二、开发初步:

操作程序打开浏览器并打开我们需要进入的网页:

1 url = 'https://www.xxx.com'2 driver=webdriver.Chrome()3 driver.get(url)4 time.sleep(5)5 driver.quit()

这里可以自己测试一下,我所使用的是Google的浏览器,你们可以尝试使用Firefox,他们有一些的区别,主要是站点的区别!

进入页面后定tag

html:

1 <div id="aaa" class="bbb" name="ccc">2 <p></p>3 <p><a></p>4 </div>

python:

1 element = driver.find_element_by_id("aaa") 2 frame = driver.find_element_by_tag_name("div") 3 cheese = driver.find_element_by_name("ccc") 4 cheeses = driver.find_elements_by_class_name("bbb") 5 6 or 7 8 from selenium.webdriver.common.by import By 9 element = driver.find_element(by=By.ID, value="aaa")10 frame = driver.find_element(By.TAG_NAME, "div")11 cheese = driver.find_element(By.NAME, "ccc")12 cheeses = driver.find_elements(By.CLASS_NAME, "bbb")

这里每一个都是锁定tag树,它们都是根据id,class,name,tagname来定义的。

1 xpath_class = driver.find_element_by_xpath('//div[@class="bbb"]/p')2 xpath_id = driver.find_element_by_xpath('//div[@id="aaa"]/p')

这是通用方法的,Xpath方法,它们都输属于解析网页的内容锁定tag。

处理操作:

当我们锁定功能键的tag属性的时候,我们就可以进一步操作,比如换页,搜索功能的实现

这里我们就介绍一下模拟鼠标的操作:

1 elem = driver.find_element_by_xpath('//a[@id="tagname"]')2 ActionChains(driver).double_click(elem).perfORM()3 time.sleep(3)

因为时间问题,我只是介绍一下鼠标左键单击换页操作,其他的何以参考一下官方文档:Selenium Webdrive

ActionChains:锁定浏览器,double_click锁定tag标签树,.perform():点击标签树

获取价值数据

这里的操作类似与Xpath的语法:

driver.find_elements_by_tag_name('td')[3].textdriver.find_elements_by_tag_name('a').get_attribute('href')

这里注意一下elements,指所有的tag-> a比标签的href,这里是list格式,需要遍历。

最后来一串完整代码:

 1 from selenium import webdriver 2 import time 3 import lxml.html as HTML 4 from bs4 import BeautifulSoup 5 from selenium.webdriver.common.keys import Keys 6 from selenium.webdriver.common.action_chains import ActionChains 7 from pymongo import MongoClient,ASCENDING, DESCENDING 8 from selenium.webdriver.common.by import By 9 def parser():10 url = 'Https://www.xxx.com'11 driver=webdriver.Chrome()12 driver.get(url)13 time.sleep(5)14 for i in range(1,675):15 a = driver.find_element_by_xpath('//div[@class="aaa"]')16 tr = a.find_elements_by_tag_name('tr')17 for j in xrange(1,len(tr)):18 quantity = tr[j].find_elements_by_tag_name('td')[3].text19 producturl = tr[j].find_elements_by_tag_name('td')[0].find_elements_by_tag_name("div")[1].find_element_by_tag_name('ul').find_element_by_tag_name('li').find_element_by_tag_name('a').get_attribute('href')20 producturl_db(producturl,quantity)21 elem = driver.find_element_by_xpath('//a[@id="eleNextPage"]')22 ActionChains(driver).double_click(elem).perform()23 time.sleep(3)24 25 driver.quit()

selenium有个小GUB,就是在用Xpath的时候,你已经找到父级tag,但是这个父级很多,比如tr,你如果遍历它,寻找td的话,那么你还是使用find_elements_by_tag_name,因为那个会初始化,不会管你找到那个父级。

到此,相信大家对“Python怎么实现数据挖掘”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

--结束END--

本文标题: Python怎么实现数据挖掘

本文链接: https://lsjlt.com/news/228935.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python怎么实现数据挖掘
    本篇内容主要讲解“Python怎么实现数据挖掘”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么实现数据挖掘”吧!这个Selenium模块主要是应对我们自动浏览网页数据所需要用的,让...
    99+
    2023-06-02
  • Python数据挖掘Pandas详解
    目录1 DataFrame1.1 构造dataframe 利用DataFrame函数1.2 常用操作(设置索引)1.3 MultiIndex与Panel1.4 Series2 基本数...
    99+
    2024-04-02
  • 数据挖掘 - Marvin
                         ...
    99+
    2018-01-12
    数据挖掘 - Marvin
  • python数据挖掘Apriori算法实现关联分析
    目录摘要:关联分析Apriori原理算法实现挖掘关联规则利用Apriori算法解决实际问题发现毒蘑菇的相似特征总结:摘要: 主要是讲解一些数据挖掘中频繁模式挖掘的Apriori算法原...
    99+
    2024-04-02
  • NumPy数据挖掘指南:从数据中挖掘宝藏的秘诀
    数据预处理: NumPy 提供了多种数据预处理函数,用于处理缺失值、异常值、重复值等数据问题。 常见的预处理操作包括数据清洗、数据标准化、数据归一化等。 以下代码示例展示了如何使用 NumPy 进行数据预处理: import...
    99+
    2024-02-11
    NumPy 数据挖掘 数据预处理 特征工程 数据建模 数据可视化
  • Python数据挖掘学习路程--起步
    一、首先第一步我去了解了Python开发环境:Python(程序运行基础的解释器)+第三方类库(功能扩展)+编辑器(提高代码编辑效率) 编辑器有:Pycharm、Spyder、jupyter notebook等 Anaconda:包含了P...
    99+
    2023-01-30
    路程 数据挖掘 Python
  • 数据挖掘(2.3)--数据预处理
    目录 三、数据集成和转换 1.数据集成  2.数据冗余性  2.1 皮尔森相关系数 2.2卡方检验  3.数据转换 四、数据的规约和变换 1.数据归约 2数据离散化 三、数据集成和转换 1.数据集成  数据集成是将不同来源的数据整合...
    99+
    2023-09-10
    人工智能 python 数据挖掘 数据分析
  • python 数据挖掘算法的过程详解
    目录1、首先简述数据挖掘的过程第一步:数据选择第二步:数据预处理第三步:特征值数据转换第四步:模型训练第五步:测试模型+效果评估第六步:模型使用第七步:解释与评价2、主要的算法模型讲...
    99+
    2024-04-02
  • python数据挖掘算法的示例分析
    这篇文章给大家分享的是有关python数据挖掘算法的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、首先简述数据挖掘的过程第一步:数据选择可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。第二...
    99+
    2023-06-29
  • 数据挖掘和大数据的区别
    数据挖掘 一般用于对企业内部系统的数据库进行筛选、整合和分析。 操作对象是数据仓库,数据相对有规律,数据量较少。 大数据 一般指对互联网中杂乱无章的数据进行筛选、整合和分析。 操作对象一般是互联网的数据,数据无规律,数据量极大。往往需要和爬...
    99+
    2023-10-26
    1024程序员节 大数据 数据挖掘
  • pg数据库日志挖掘WalMiner
    WalMiner是从PostgreSQL的WAL(write ahead logs)日志中解析出执行的SQL语句的工具,并能生 成出对应的undo SQL语句。 referenceXlogMiner renamed to WalMiner ...
    99+
    2018-05-22
    pg数据库日志挖掘WalMiner
  • 数据挖掘概念与技术
    数据挖掘是指从大量数据中发现有价值的信息或模式的过程。它是一种结合了统计学、机器学习、人工智能和数据库技术的综合性技术。数据挖掘技术...
    99+
    2023-09-28
    数据挖掘
  • PHP与数据挖掘的集成
    目前,数据挖掘在各行各业中都扮演着非常重要的角色,同时PHP作为一种流行的编程语言,在开发Web应用方面具有广泛的应用。因此,将PHP与数据挖掘集成起来,可以为开发人员提供更强大的功能和更高效的方法。本文将介绍PHP与数据挖掘的集成。一、P...
    99+
    2023-05-16
    数据挖掘 集成 PHP
  • R语言数据挖掘实战系列(3)
    R语言数据挖掘实战系列(3)三、数据探索        通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据质量分析        数据质量分析的主要任务是检查原始数据中是否存在...
    99+
    2023-01-31
    实战 数据挖掘 语言
  • pyhton数据挖掘self原理是什么
    本篇内容主要讲解“pyhton数据挖掘self原理是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“pyhton数据挖掘self原理是什么”吧!1. 什么是class,什么是instance,...
    99+
    2023-06-25
  • python怎么挖掘蛋卷基金投资组合数据分析
    这篇文章主要介绍“python怎么挖掘蛋卷基金投资组合数据分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么挖掘蛋卷基金投资组合数据分析”文章能帮助大家解决问题。一、网页分析1、打开...
    99+
    2023-06-30
  • 「数据挖掘入门系列」Python快速入门
    Python环境搭建本次入门系列将使用Python作为开发语言。要使用Python语言,我们先来搭建Python开发平台。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anacond...
    99+
    2021-03-07
    「数据挖掘入门系列」Python快速入门
  • 有哪些优秀的python数据挖掘工具
    这篇文章主要讲解了“有哪些优秀的python数据挖掘工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“有哪些优秀的python数据挖掘工具”吧!1、GenismGenism是用来做文本主题模...
    99+
    2023-06-16
  • Python数据分析与挖掘————图像的处理
    系列文章目录 文章目录 系列文章目录前言图片的马赛克一.安装matplotlib,numpy等模块二.马赛克图片一.导入图片二.定位区域三.图片的合成 图片拼接图像的灰度化...
    99+
    2023-09-24
    python 数据分析 matplotlib
  • 如何优化数据库的数据挖掘
    优化数据库的数据挖掘可以通过以下几个方面来实现: 数据清洗:在进行数据挖掘之前,首先需要对数据进行清洗,包括去除重复数据、处理缺失值、处理异常值等,以确保数据的质量和准确性。 数据预处理:在数据挖掘之前,可以对数据进行预处理,包括数...
    99+
    2024-07-03
    数据库
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作