返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫教程-28-Seleni
  • 925
分享到

Python爬虫教程-28-Seleni

爬虫教程Python 2023-01-31 07:01:11 925人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

我觉得本篇是很有意思的,闲着没事来看看! Phantomjs 幽灵浏览器,无界面浏览器,不渲染页面。selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支

我觉得本篇是很有意思的,闲着没事来看看!

Phantomjs 幽灵浏览器,无界面浏览器,不渲染页面。selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲染。所以 PhantomJS 使用的人就越来越少了,挺可惜,本篇介绍 Selenium + Chrome

安装Chrome浏览器和 Chromedriver

  • 安装 Chrome 浏览器就不介绍了
  • 安装 Chromedriver:
  • 注意:Chromedriver 需要根据自己的 Chrome 版本下载:
    • Chromedriver 所有版本下载地址:Http://npm.taobao.org/mirrors/chromedriver/
    • 兼容版本请参照:Chrome版本与chromedriver兼容版本对照表
    • 下载解压即可,当然如果你解压到自己定义的目录,就需要配置一下环境,去环境变量,在 Path 加一条 Chromedriver 的安装目录
    • 如果你嫌配置环境变量太麻烦,就直接把它放到一个已经配置好环境变量的目录,比如 C:\Program Files (x86)

安装 Chromedriver-binary 包

  • PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【BeautifulSoup4】>【install】
  • 具体操作截图:
    这里写图片描述
    安装好就可以尽情使用了
  • Selenium 操作主要分两大类:
    • 得到 UI 元素
      • find_element_by_id
      • find_elements_by_name
      • find_elements_by_xpath
      • find_elements_by_link_text
      • find_elements_by_partial_link_text
      • find_elements_by_tag_name
      • find_elements_by_class_name
      • find_elements_by_CSS_selector
    • 基于 UI 元素操作的模拟
      • 单击
      • 右键
      • 拖拽
      • 输入
      • 可以通过 ActionsChains类来做到

案例 29chromedriver

  • 案例 29chromedriver.py 代码文件:
    https://xpwi.GitHub.io/py/py%E7%88%AC%E8%99%AB/py29chromedriver.py
# Selenium + Chrome 案例1
from selenium import WEBdriver

# 路径是自己解压安装 Chromedriver 的路径
driver = webdriver.Chrome()

url = "http://www.baidu.com"

driver.get(url)

# 根据id查找,后面加.text 表示拿看到的文本数据
text = driver.find_element_by_id('wrapper').text
print(text)

运行结果

1.控制台:打印出来了我们想要的能看到的文本
这里写图片描述
2.我们可以看到:执行程序自动打开了一个 Chrome 浏览器的窗口,并提示 Chrome 正受到自动检测软件的控制
这里写图片描述
此时,既然已经控制了浏览器,我们就可以进行更多操作了

重要案例 29chromedriver2.py

  • 案例 29chromedriver2.py 代码文件:
    https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py29chromedriver2.py
# Selenium + Chrome 案例2
# 打开的浏览器可能会弹窗,点击【取消】或者【不管它】都行
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys

# 默认不需要路径,如果没有环境变量就需要加上
driver = webdriver.Chrome()

url = "http://www.baidu.com"

driver.get(url)

# 根据id查找,后面加.text 表示拿看到的文本数据
text = driver.find_element_by_id('wrapper').text

print(driver.title)

# 对页面截屏,保存为 baidu.png
driver.save_screenshot('py29baidu.png')

# 控制 Chrome 在输入框输入大熊猫
driver.find_element_by_id('kw').send_keys(u"大熊猫")
# 单击搜索按钮,id = 'su'
driver.find_element_by_id('su').click()

# 缓冲5秒,让页面加载图片等
time.sleep(5)
# 截屏,保存
driver.save_screenshot("py29daxiongmao.png")

# 获取当前页面的 cookie 常用在需要登录的页面
print(driver.get_cookie('cookie'))

# 模拟 按下两个按键 Ctrl + a
driver.find_element_by_id('kw').send_keys(Keys.CONTROL, 'a')
# 模拟 按下两个按键 Ctrl + c
driver.find_element_by_id('kw').send_keys(Keys.CONTROL, 'c')

运行结果

运行代码,会自动打开浏览器,自动输入大熊猫,自动截屏并保存,然后选中输入框内容,然后拷贝
这里写图片描述
是不是很神奇,保存的截屏和代码同级目录

更多文章链接:python 爬虫随笔


- 本笔记不允许任何个人和组织转载

--结束END--

本文标题: Python爬虫教程-28-Seleni

本文链接: https://lsjlt.com/news/191580.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python爬虫教程-28-Seleni
    我觉得本篇是很有意思的,闲着没事来看看! PhantomJS 幽灵浏览器,无界面浏览器,不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支...
    99+
    2023-01-31
    爬虫 教程 Python
  • Python爬虫教程-01-爬虫介绍
    Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 url, http web前端,html,css,...
    99+
    2023-01-30
    爬虫 教程 Python
  • Python爬虫教程-34-分布式爬虫介
    Python爬虫教程-34-分布式爬虫介绍 分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫 什么是分布式爬虫 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。 其实搜索引擎...
    99+
    2023-01-30
    爬虫 分布式 教程
  • python爬虫踩坑教程
    我们的目标是爬取下面这个个网址上的2010~2018年的数据 http://stockdata.stock.hexun.com/zrbg/Plate.aspxdate=2015-12-31 获取我们需要的表格中的某些列的数据​ (这是我从...
    99+
    2023-01-31
    爬虫 教程 python
  • Python短视频爬虫教程
    好难受,上次发了做游戏的居然没人看,每天为了给你们写啥,老夫心都操碎了~ 真的是,今天来给大家爬一波短视频网站吧,都是些很养眼的~ 网站地址在代码里面,大家用心一下就能看到了。 ...
    99+
    2024-04-02
  • python爬虫入门教程(非常详细),超级简单的Python爬虫教程
    一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT...
    99+
    2023-09-01
    python 爬虫 python爬虫 爬虫入门 python零基础
  • python爬虫教程:爬取酷狗音乐
     在常见的几个音乐网站里,酷狗可以说是最好爬取的啦,什么弯都没有,也没加密啥的,所以最适合小白入门爬虫 本篇针对爬虫零基础的小白,所以每一步骤我都截图并详细解释了,其实我自己看着都啰嗦,归根到底就是两个步骤的请求,还请大佬绕路勿喷。 1、...
    99+
    2023-01-31
    爬虫 酷狗 教程
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • Python爬虫入门教程 57-100
    滑动验证码介绍 本篇博客涉及到的验证码为滑动验证码,不同于极验证,本验证码难度略低,需要的将滑块拖动到矩形区域右侧即可完成。 这类验证码不常见了,官方介绍地址为:https://promotion.aliyun.com/ntms/act...
    99+
    2023-01-31
    爬虫 入门教程 Python
  • Python爬虫入门教程 48-100
    1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler、Charles等工具方便的地方是它可以对接Python脚本。 有了它我们可以不用手动截获和分析HTTP请求和响应,只需写好请求和响应的处理逻辑即可。 ...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 49-100
    爬前准备工作 在开始安装Appium之前,你要先知道Appium是做什么的?Appium 是一个自动化测试开源工具,看到没,做测试用的,它有点类似Selenium,可以自动操作APP实现一系列的操作。 标记重点,可以使用python对Ap...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 52-100
    写在前面 关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈 先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 53-100
    爬取背景 这套课程虽然叫爬虫入门类课程,但是里面涉及到的点是非常多,十分检验你的基础掌握的牢固程度,代码中的很多地方都是可以细细品味的。 为什么要写这么一个小东东呢,因为我生活在大河北,那雾霾醇厚的很,去了趟三亚,那空气,啧啧,舒服的很,...
    99+
    2023-01-31
    爬虫 入门教程 Python
  • Python爬虫入门教程 54-100
    爬虫背景 爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成“博客园“ 博客的自动评论,其实原理是非常简单的,提炼一下需求 基本需求 登录博客园<不实现,登...
    99+
    2023-01-31
    爬虫 入门教程 Python
  • Python爬虫入门教程 36-100
    爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我打算在50篇博客之后在写,所以现在就放...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 38-100
    爬前叨叨 今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍、发放的毕业证书国家均不予承认,也就是俗称的野鸡大学! 网址是 https://daxue.eol.cn...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 25-100
    1. 知乎文章图片写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。 找到我们要爬取的页面,我随便选了一个 https...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 26-100
    1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。 首先,需要获取任意知乎的问题,只...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 44-100
    1. 第二款抓包工具Charles安装与使用 Charles和Fiddler一样,也是一款抓包工具,比Fiddler界面更加清晰,支持多平台 1.1 官方网址 https://www.charlesproxy.com/ 1.2 下载地址...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 45-100
    1. Charles抓取兔儿故事背景介绍 之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事。 爬虫编写起来核心的重点是分析到链接,只要把链接分析到,剩下的就好...
    99+
    2023-01-30
    爬虫 入门教程 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作