首页 > 资讯 > 后端开发 > GO >详解怎么使用Golang爬取必应壁纸

367

分享到

详解怎么使用Golang爬取必应壁纸

Golang 爬虫 Go 2023-05-14 20:05:01 367人浏览安东尼

摘要

做爬虫不用说，就是用python就好，一个requests包走天下。但是呢，听说golang中内置的Http包非常牛逼，咱就是说不得整点活，也刚好学习学习新东西，复习下http协议的请求和响应相关的知识点。话不多说，咱直接开整本文章爬下必应

详解怎么使用Golang爬取必应壁纸

做爬虫不用说，就是用python就好，一个requests包走天下。但是呢，听说golang中内置的Http包非常牛逼，咱就是说不得整点活，也刚好学习学习新东西，复习下http协议的请求和响应相关的知识点。话不多说，咱直接开整

本文章爬下必应壁纸先小试牛刀。狗头保命狗头保命狗头保命

爬虫流程概述

graph TD
请求数据 --> 解析数据 --> 数据入库

上图的流程图大家可以看到，其实爬虫并不麻烦，整个流程就只有三步而已。接下来具体聊聊每一步需要做什么

请求数据：在这里我们需要使用Golang中的内置包http包向目标地址发起请求，这一步就完成了
解析数据：这里我们需要对请求到的数据进行解析，因为不是整个请求到的数据我们都需要，我们只需要某些具体的关键的数据而已。这一步也叫数据清洗
数据入库：不难理解，这就是将解析好的数据进行入库操作

实战分析

先到必应壁纸官网上观察，做爬虫的话是需要对数据特别敏感的。这是首页信息，整个页面是非常简洁的

接下来，需要调出浏览器的开发者工具（这个大家应该都非常熟悉吧，不熟悉的话很难跟下去的喔）。直接按下F12或者右键点击检查但是呢？在必应壁纸上，右键不能调用控制台，只能手动调出了。大家不用担心，按照第一张图操作就好。如果有同学的chrome是中文的，也是一样的操作，选择更多工具，选择开发者工具即可

不出意外呢，大家肯定看到的是这样的页面

这个没关系的，只是必应壁纸网站的一些反爬错误而已。（我很久之前爬的时候还没有这个反爬错误）这个是不影响我们操作的

接下来选择这个工具，帮助我们快速定位到我们想要的元素上然后我们就能找到我们所需的图片信息

代码实战

下面是爬取一页的数据

package main

import (
    "fmt"
    "GitHub.com/PuerkitoBio/goquery"
    "io"
    "io/ioutil"
    "log"
    "net/http"
    "os"
    "time"
)

func Run(method, url string, body io.Reader, client *http.Client) {
    req, err := http.NewRequest(method, url, body)
    if err != nil {
        log.Println("获取请求对象失败")
        return
    }
    req.Header.Set("user-agent", "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/110.0.0.0 Safari/537.36")
    resp, err := client.Do(req)
    if err != nil {
        log.Println("发起请求失败")
        return
    }
    if resp.StatusCode != http.StatusOK {
        log.Printf("请求失败，状态码：%d", resp.StatusCode)
        return
    }
    defer resp.Body.Close() // 关闭响应对象中的body
    query, err := goquery.NewDocumentFromReader(resp.Body)
    if err != nil {
        log.Println("生成goQuery对象失败")
        return
    }
    query.Find(".container .item").Each(func(i int, s *goquery.Selection) {
        imgUrl, _ := s.Find("a.ctrl.download").Attr("href")
        imgName := s.Find(".description>h3").Text()
        fmt.Println(imgUrl)
        fmt.Println(imgName)
        DownloadImage(imgUrl, i, client)
        time.Sleep(time.Second)
        fmt.Println("-------------------------")
    })
}

func DownloadImage(url string, index int, client *http.Client) {
    req, err := http.NewRequest("POST", url, nil)
    if err != nil {
        log.Println("获取请求对象失败")
        return
    }
    req.Header.Set("user-agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36")
    resp, err := client.Do(req)
    if err != nil {
        log.Println("发起请求失败")
        return
    }
    data, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        log.Println("读取请求体失败")
        return
    }
    baseDir := "./image/image-%d.jpg"
    f, err := os.OpenFile(fmt.Sprintf(baseDir, index), os.O_CREATE|os.O_TRUNC|os.O_WRONLY, 0666)
    if err != nil {
        log.Println("打开文件失败", err.Error())
        return
    }
    defer f.Close()
    _, err = f.Write(data)
    if err != nil {
        log.Println("写入数据失败")
        return
    }
    fmt.Println("下载图片成功")
}

func main() {
    client := &http.Client{}
    url := "https://bing.ioliu.cn/?p=%d"
    method := "GET"
    Run(method, url, nil, client)
}

下面是爬取多页数据爬取多页的代码没有多大的改动，我们还是需要先观察网站的特点

发现什么了吗？第一页p=1，第二页p=2，第十页p=10

所以我们直接起一个for循环，然后复用之前爬取单页的代码就行

// 爬取多页的main函数如下
func main() {
    client := &http.Client{}
    url := "https://bing.ioliu.cn/?p=%d"
    method := "GET"
    for i := 1; i < 5; i++ { // 实现分页操作
        Run(method, fmt.Sprintf(url, i), nil, client)
    }
}

总结

在我们这个例子中，我们解析网页数据使用的工具的一个第三方包，因为用正则真的太麻烦了

用CSS选择器：goQuery
用xpath选择器：htmlquery
正则：内置包，不推荐，正则规则不好写

以上就是详解怎么使用Golang爬取必应壁纸的详细内容，更多请关注编程网其它相关文章！

您可能感兴趣的文档:

Go语言（Golang）教程

--结束END--

本文标题: 详解怎么使用Golang爬取必应壁纸

本文链接: https://lsjlt.com/news/203646.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

详解怎么使用Golang爬取必应壁纸

爬虫流程概述

实战分析

代码实战

总结

详解怎么使用Golang爬取必应壁纸

如何使用Golang爬取必应壁纸

Python怎么利用多线程爬取LOL高清壁纸

怎么用Python代码爬取王者全套皮肤壁纸

怎么在python中利用多线程爬取网站壁纸

Python怎么爬取图虫创意优质高清壁纸图

Android中怎么使用WallPaper设置壁纸

Golang在爬虫开发中的应用案例详解

怎么使用python爬虫爬取数据

Python使用爬虫爬取贵阳房价的方法详解

使用PyCharm怎么爬取小说

使用python怎么爬取数据

怎么使用pycharm爬取数据

怎么使用Java爬虫批量爬取图片

使用Python怎么爬取MP3音频

怎么使用Python爬取QQ密码

怎么使用python爬虫爬取二手房数据

Python爬取求职网requests库和BeautifulSoup库使用详解

使用Python爬虫怎么避免频繁爬取网站

使用python怎么爬取微博评论

Sqlx 连接具有相同字段的表

如何从 go 中的另一个包访问结构变量？

使用 kafka-go 在 Kafka 中计划创建消费者

无法从 Golang 中的 Google userinfo API 响应访问电话号码（使用 golang.org/x/oauth2 和 Google People API）

如何在Golang中为Azure SDK指定x509证书

etcd 事务中的原子计数器增量

将字段添加到 MongoDB 内部对象

如何处理关闭同一通道的多个 go 例程？

Cron Job 不会用 TimeZone 触发

API 网关 -> Go Lambda 参数