selenium+webDriver+h

selenium webDriver 2023-01-30 22:01:38 338人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

一、环境搭建工欲善其事，必先利其器。在这里，我们采用selenium+WEBDriver+headless Chrome(当然，这里使用FireFox、Safari浏览器都可以)来实现爬虫。 (一)工具 1.selenium,一个用于W

一、环境搭建

工欲善其事，必先利其器。在这里，我们采用selenium+WEBDriver+headless Chrome(当然，这里使用FireFox、Safari浏览器都可以)来实现爬虫。

(一)工具

1.selenium,一个用于Web应用程序测试的工具。其特点是直接运行在浏览器中，就像真正的用户在操作一样。新版本selenium2集成了 Selenium 1.0 以及 WebDriver。

2.webDriver作用如下：执行代码通过给Webdriver发送指令，让Webdriver知道想要做的操作，Webdriver再根据这些操作在浏览器界面上进行控制，例如查找页面元素、发送文本、实现事件点击等等。

3.Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行程序。从而更加方便测试 web 应用，获得网站的截图，做爬虫抓取信息等。

(二)安装

1.安装selenium

首先，在安装好python.exe或者anaconda集成环境的前提下，打开命令对话框cmd,

（1）输入pip install selenuim进行安装。

如果总是报以下错误：Could not find a version that satisfies the requirement selenuim (from versions: )，No matching distribution found for selenuim选择方法2

（2）自己下载selenium工具，下载地址：https://pypi.Python.org/pypi/selenium。下载完成后，把安装包拷贝到 pip3 同目录下，使用管理员权限执行 cmd，

切换到 pip3 目录(%python%\Scripts)，执行命令行：pip3 install selenium-3.4.3-py2.py3-none-any.whl

如果使用pip3提示需要升级，则在对话框中进入到python.exe所在位置，输入 python -m pip install --upgrade pip

安装成功显示如下：

2.安装webDriver

注意保持两个版本对应：1.浏览器类型与webDriver对应，ChromeBrowser-ChromeDriver；2.浏览器版本与webDriver版本对应。

在url输入框键入：chrome://version可查看浏览器版本（chrome68要求driver2.42），相应版本的webDriver下载地址如下：Https://chromedriver.storage.Googleapis.com/index.html

下载完webDriver之后解压放到chrome.exe的安装目录下，并添加系统变量，即可使用。

3.Headless Chrome

设置浏览器的无界面状态可提高爬虫速度，在代码文件中进行设置即可。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)

二、编写代码

from selenium import webdriver
import csv
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
url = 'http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0'
#准备好存储歌单的csv文件
csv_file = open("playlist.csv",'w',newline='')
writer = csv.writer(csv_file)
writer.writerow(['标题','播放数','链接'])
#解析每一页，直到‘下一页’为空
while url != 'javascript:void(0)':
    #用webDriver加载页面
    driver.get(url)
    #切换到内容的iframe
    driver.switch_to.frame("contentFrame")
    #定位歌单标签
    data = driver.find_element_by_id("m-pl-container").\
        find_elements_by_tag_name("li")
    #解析一页中的所有歌单
    for i in range(len(data)):
        #获取播放数
        nb = data[i].find_element_by_class_name("nb").text
        if '万' in nb and int(nb.split("万")[0]) > 500 :
            msk = data[i].find_element_by_CSS_selector("a.msk")
            writer.writerow([msk.get_attribute('title'),nb,msk.get_attribute('href')])
    url = driver.find_element_by_css_selector("a.zbtn.znxt").\
        get_attribute("href")
csv_file.close()

三、运行结果

四、补充

在安装工具或者运行项目时经常遇到python版本不匹配的问题，这时我们可以进行版本切换，参考

关于在anaconda中切换不同的python版本

https://blog.csdn.net/my_kingdom/article/details/68957736

本文章参考了【爬虫】手把手教你写网络爬虫（1）

您可能感兴趣的文档:

--结束END--

本文标题: selenium+webDriver+h

本文链接: https://lsjlt.com/news/179911.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

selenium+webDriver+h

一、环境搭建工欲善其事，必先利其器。在这里，我们采用selenium+webDriver+headless Chrome(当然，这里使用FireFox、Safari浏览器都可以)来实现爬虫。 (一)工具 1.selenium,一个用于W...

99+

2023-01-30

selenium webDriver
Python selenium webdriver 基本使用

系列文章目录 selenium webdriver 的常用示例文章目录系列文章目录selenium webdriver 的常用示例前言一、Pip安装&创建Bowser对象1.Pip ...

99+

2023-09-03

python selenium chrome 网络爬虫 https
Python怎么使用Selenium WebDriver

本篇内容主要讲解“Python怎么使用Selenium WebDriver”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python怎么使用Selenium WebDrive...

99+

2023-07-06
selenium webdriver 打开chrome但打不开whatsappWeb

问题内容我有这个代码： from selenium import webdriver from selenium.webdriver.chrome.service import se...

99+

2024-02-09

webdriver
Python selenium webdriver 基本使用代码分享

目录前言一、Pip安装&创建Bowser对象1.Pip install selenium2.创建Bowser对象二、webdriver.ChromeOptions配置三、常用...

99+

2022-11-13

Python selenium webdriver使用 Python selenium webdriver
selenium怎么执行js并绕过webdriver监测

这篇文章主要介绍了selenium怎么执行js并绕过webdriver监测的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇selenium怎么执行js并绕过webdriver监测文章都会有所收获，下面我们一起来看...

99+

2023-06-30
selenium执行js并绕过webdriver监测常见方法

目录selenium执行js常见的selenium监测手段常用绕过selenium监测1常用绕过selenium监测2常用绕过selenium监测3常用绕过selenium监测4se...

99+

2024-04-02
Python使用Selenium WebDriver的入门介绍及安装教程

Selenium是一个用于自动化Web应用程序测试的工具，它可以模拟用户在浏览器中的操作，比如点击、填写表单、提交等。Python是...

99+

2023-08-22

python
Python之selenium，使用webdriver模拟登录网站（含验证码）

一、前言前段时间做了一个小项目，其中有一段需要自动获取网站后台的数据，但是这个网站没有任何提供给开发者的API，所以只能靠自己去探索。起初想着用发送请求的方式去模拟登陆，获取cookies，从而再获取网站后台数据，但是因为自己太菜了一些...

99+

2023-09-29

python selenium 测试工程师软件测试性能测试自动化测试测试工具
Python+Selenium+Webdriver实现自动执行微软奖励积分脚本

目录脚本运行环境首次运行执行脚本开始刷奖励积分脚本运行环境 python 3.6+edge浏览器（推荐使用，因为在edge浏览器中可以获得额外12分，当然chrome浏览器也可以） ...

99+

2023-02-14

Python Selenium Webdriver自动执行微软奖励积分 Python微软奖励积分 Python Selenium Webdriver
python selenium webdriver怎么实现多线程启动多个浏览器

这篇文章主要讲解了“python selenium webdriver怎么实现多线程启动多个浏览器”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“python selenium webdriv...

99+

2023-06-05
Python Selenium WebDriver 如何设置请求头用户代理(User-Agent)参数

在本文中，将演示如何为浏览器设置用户代理，以及如何在Python Selenium WebDriver中读取用户代理。测试中的许多方案都需要操作用户代理。什么是用户代理？ User-Agent 请求...

99+

2023-09-05

python selenium firefox
Python+Webdriver+Ecl

先简要介绍一下这三个软件的关系，python是一种面向对象、直译式计算机程序设计语言，语法简洁而清晰，具有丰富和强大的类库；webdriver是selenium的一个web自动化测试类库，用来直接驱动浏览器，它支持Chrome、Firefo...

99+

2023-01-31

Python Webdriver Ecl
Selenium webdriver的无头模式（headless）可能导致cookies内容缺失，以及解决措施

无头模式（headless）是selenium的webdriver浏览器驱动的一项功能，允许浏览器不出现而仍可访问网页，并与之交互，这对于运行自动化测试或网络抓包大有用处，因为运行速度更快、占用资源更少。但是笔者发现在无头模式下运行时，浏...

99+

2023-09-03

selenium python chrome
webdriver-helper安装说明

webdriver-helper 是一个 python 第三方库，用来更加便捷的使用 selenium，完成浏览器自动化控制的辅助工具，目前有两个版本：第一个是免费版，版本代号 1.*, 这个版本可以帮助你免去寻找、匹配、下载合适的浏览...

99+

2023-09-03

python 开发语言 selenium
解决webdriver调用Firefo

如何解决selenium webdriver.Firefox()找不到geckodriver文件先声明：python IDLE我找不到能使用环境变量的设置，如你有更好的方法，请留言，多谢了。平台：macOS 软件 python自...

99+

2023-01-31

webdriver Firefo
爬虫：AttributeError: ‘WebDriver‘ object has no attribute ‘find_element_by_id‘

问题：在学习爬虫中的selenium部分时，出现AttributeError: 'WebDriver' object has no attribute 'find_element_by_id'问题。原因： ...

99+

2023-09-05

爬虫 python 开发语言
33. Python redis的 h

1.hash 类型操作import redis pool = redis.ConnectionPool(host="192.168.48.131", port=6379, db=0) r = redis.Redis(connection_p...

99+

2023-01-31

Python redis
vue2.x中h函数(createElement)与vue3中的h函数详解

目录1. vue2.x的 h 函数(createElement)2. vue3 h函数配置项2.1 v-model实现（以下开始为官网实现）2.2 v-on2.3 事件修饰符2.4 ...

99+

2022-12-24

vue3 h函数 vue h函数 vue2.x h函数
python + selenium +

使用python3.6在Ubuntu中进行了一项使用Chrome headless浏览器的工作, 在此记录下遇到的问题以及解决方法. 入门参考 unning-selenium-with-headless-chrome Ubuntu中如何...

99+

2023-01-31

python selenium