本文小编为大家详细介绍“node.js如何爬取在线电瓶车信息”,内容详细,步骤清晰,细节处理妥当,希望这篇“node.js如何爬取在线电瓶车信息”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。步骤第一步,引入需要的
本文小编为大家详细介绍“node.js如何爬取在线电瓶车信息”,内容详细,步骤清晰,细节处理妥当,希望这篇“node.js如何爬取在线电瓶车信息”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
步骤
第一步,引入需要的库
var cheerio = require('cheerio');var fetch = require('node-fetch');// cheerio 是一个类似浏览器端的Jquery,用来解析html的// fetch 用来发送请求
第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的)
// 初始urlvar url = "Http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是为了防止有相同的而重复爬去var urls = new Set()// 存储所有数据var data = []
分析网页,思考爬取的方式
思路:
每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好)
第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束
首先我们定义一个函数如下
// 这是得到每个页面的48个链接,并开始发送请求function ad(arg){// 参数 arg 先不管// 本地化一下需要爬取的链接let url2 = arg || url;// 请求第一页该网页,拿到数据之后,复制给 appvar app = await fetch(url2).then(res=>res.text())// 然后假装用jQuery解析了var $ = cheerio.load(app)// 获取当前页所有电瓶车的a标签var ele = $("#J_PicMode a.pic")// 存放已经爬取过的url,防止重复爬取var old_urls = []var urlapp = []//拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}// 用把URL一块丢给promise处理urlapp = await Promise.all(old_urls)// 处理完成之后,循环加入jQuery?for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}// 至此,一页的数据就爬完了// console.log(data);// 然后开始爬取下一页var nextURL = $(".next").attr('href')// 判断当前页是不是最后一页if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())// 获取下一页的标签,拿到地址,走你ad(urlRoot+nextURL)}return data}ad()
完整代码如下
var cheerio = require('cheerio');var fetch = require('node-fetch');var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"var urlRoot = "http://detail.zol.com.cn"// var url = "http://localhost:3222/app1"var urls = new Set()var data = [] async function ad(arg){let url2 = arg || url;var app = await fetch(url2).then(res=>res.text())var $ = cheerio.load(app)var ele = $("#J_PicMode a.pic")var old_urls = []var urlapp = []for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}urlapp = await Promise.all(old_urls)for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}var nextURL = $(".next").attr('href')if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())ad(urlRoot+nextURL)}return data}ad()
读到这里,这篇“node.js如何爬取在线电瓶车信息”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网精选频道。
--结束END--
本文标题: node.js如何爬取在线电瓶车信息
本文链接: https://lsjlt.com/news/346514.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0