返回顶部
首页 > 资讯 > 精选 >html 渲染函数内存泄漏
  • 655
分享到

html 渲染函数内存泄漏

2024-02-06 10:02:15 655人浏览 八月长安
摘要

问题内容 我面临的问题是,即使仅尝试 200 个请求也会导致程序占用容器的 6gb 内存并最终被 oom 杀死。 我的想法是提取 html 中存在的所有文本节点,然后处理它们以提取它们

问题内容

我面临的问题是,即使仅尝试 200 个请求也会导致程序占用容器的 6gb 内存并最终被 oom 杀死。 我的想法是提取 html 中存在的所有文本节点,然后处理它们以提取它们的名称、该标签的 html 和文本。因此,为了生成特定标签的 html,我使用 golang.org/x/net/html 中的 render 函数。其中我提供 strings.builder 作为 io.writer 来编写生成的 html。但由于某种原因,构建器占用了太多内存。

package main

import (
    "encoding/csv"
    "io"
    "log"
    "net/Http"
    "strings"
    "Golang.org/x/net/html"
)

func main() {
    mux := http.NewServeMux()
    mux.HandleFunc("/data", GetData)
    if err := http.ListenAndServe(":8001", mux); err != nil {
        log.Println(err)
    }
}

type TagInfo struct {
    Tag  string
    Name string
    Text string
}

// http.handler
func GetData(w http.ResponseWriter, r *http.Request) {
    u := r.URL.Query().Get("url")
    doc, err := GetDoc(u)
    if err != nil {
        log.Println(err)
        w.WriteHeader(500)
        return
    }
    var buf strings.Builder
    data := Extract(doc, &buf)
    csvw := csv.NewWriter(io.Discard)
    for _, d := range data {
        csvw.Write([]string{d.Name, d.Tag, d.Text})
    }
}

// fires request and get text/html
func GetDoc(u string) (*html.node, error) {
    res, err := http.Get(u)
    if err != nil {
        return nil, err
    }
    defer res.Body.Close()
    return html.Parse(res.Body)
}

func Extract(doc *html.Node, buf *strings.Builder) []TagInfo {
    var (
        tags = make([]TagInfo, 0, 100)
        f    func(*html.Node)
    )

    f = func(n *html.Node) {
        if n.Type == html.TextNode {
            text := strings.TrimSpace(n.Data)
            if text != "" {
                parent := n.Parent
                tag := Render(parent, buf)
                tagInfo := TagInfo{
                    Tag:  tag,
                    Name: parent.Data,
                    Text: n.Data,
                }
                tags = append(tags, tagInfo)
            }
        }
        for child := n.FirstChild; child != nil; child = child.NextSibling {
            f(child)
        }
    }
    f(doc)
    return tags
}

// Render the html around the tag
// if node is text then pass the
// parent node paramter in function
func Render(n *html.Node, buf *strings.Builder) string {
    defer buf.Reset()
    if err := html.Render(buf, n); err != nil {
        log.Println(err)
        return ""
    }
    return buf.String()
}

如果您想要特定的网址列表,这里就是。我一次发出了大约 60 个请求。

我尝试使用 bytes.buffer bytes.buffersync.pool 但两者都有相同的问题。使用 pprof 我注意到 strings.builder 的 writestring 方法导致大量内存使用。


正确答案


所以这里的基本问题是接受任何 content-type ,这在抓取方面是不可接受的,大多数网站都需要发送 text/html

问题是即使url发送任何不代表html数据的内容golang.org/x/net/html仍然接受它而不抛出错误。

让我们举一个例子,其中返回 application/pdf ,然后正文将包含 html.Parse 解析的 pdf 的二进制数据,并且不会返回任何错误,这是用于抓取/爬行接受二进制数据的奇怪行为思维库。

解决方案是:检查响应头,如果只有数据是html,然后继续,否则会出现歧义或更高的内存使用量(可能更低),但我们无法预测会发生什么发生。

以上就是html 渲染函数内存泄漏的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: html 渲染函数内存泄漏

本文链接: https://lsjlt.com/news/561442.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • html 渲染函数内存泄漏
    问题内容 我面临的问题是,即使仅尝试 200 个请求也会导致程序占用容器的 6gb 内存并最终被 oom 杀死。 我的想法是提取 html 中存在的所有文本节点,然后处理它们以提取它们...
    99+
    2024-02-06
  • OpenCL clCreateContextFromType函数导致内存泄漏
    内存泄漏是一种资源管理问题,可能会导致程序运行时消耗大量的内存而无法释放。在OpenCL中,clCreateContextFromT...
    99+
    2023-09-26
    内存泄漏
  • Angular 服务器端渲染应用常见的内存泄漏问题小结
    目录屏幕闪烁问题无法通过 API 的方式终止渲染考虑如下的 Angular 代码: import { Injectable, NgZone } from "@angular/core...
    99+
    2024-04-02
  • 如何调试 PHP 函数中内存泄漏?
    调试 php 函数中的内存泄漏至关重要,可使用 xdebug、phpunit 或 valgrind 等工具。具体步骤如下:1. 使用 xdebug 添加跟踪函数并生成包含泄漏信息的 .x...
    99+
    2024-04-17
    内存泄漏 php函数
  • PHP 内存泄漏检测:识别和解决内存泄漏
    答案:php 内存泄漏是循环引用引起的,导致应用程序占用内存越来越多。步骤:检测内存泄漏:使用 debug_backtrace()、xdebug 或 php-gc 等工具。实战案例:循环...
    99+
    2024-05-11
    php 内存泄漏 垃圾回收器
  • 解决 PHP 函数中内存泄漏的方法
    php 函数中的内存泄漏可通过以下方法解决:1. 使用弱引用,防止对象被垃圾回收;2. 使用匿名函数,创建不泄漏引用的对象;3. 使用对象池,重复使用对象,优化内存管理。以上方法可有效防...
    99+
    2024-05-02
    php 内存泄漏
  • Android中的内存泄漏
    什么是内存泄漏 长生命周期的对象持有了短生命周期的对象,从而导致短生命周期的对象不能被释放 垃圾回收机制 垃圾回收机制分为:引用计数法、可达性分析法 引用计数法(有循环引用的问...
    99+
    2022-06-06
    内存泄漏 Android
  • 浅谈QT内存泄漏
    目录01前言02 QT半自动化内存管理要点03实验过程详解Malloc分配的内存空间实践实例04总结01前言    前几天,项目开展了一次代码初次评审。会上,领导...
    99+
    2024-04-02
  • Java 中的内存泄漏
    什么是 Java 中的内存泄漏? 当应用程序持有不再需要的对象引用时,就会发生 Java 内存泄漏。这些意外的对象引用阻止内置的 Java 垃圾收集机制释放这些对象消耗的内存,最终导致致命的OutOfMemoryError。 简而言之,...
    99+
    2023-10-11
    java jvm 开发语言
  • 【转】Java的内存泄漏
    一 问题的提出Java的一个重要优点就是通过垃圾收集器 (Garbage Collection,GC)自动管理内存的回收,程序员不需要通过调用函数来释放内存。因此,很多程序员认为Java不存在内存泄漏问题,或者认为即使有内存泄漏也不是程序的...
    99+
    2023-06-03
  • Perfdog玩转内存泄漏
    背景交代最近QC同学在跑游戏的过程中发现玩的时间久了游戏会发生闪退,经过搜集信息后排除了功能性bug的一.判断是否是内存泄露拿到真机,USB连接,杀掉多余后台进程,打开Perfdog,接下来一顿操作猛如虎,Perfdog具体操作不在赘述,有...
    99+
    2023-06-05
  • C++ 函数内存分配和销毁常见的内存泄漏问题
    c++++ 函数内存分配/销毁中的常见内存泄漏问题是:1. 忘记释放内存;2. 双重释放;3. 未处理异常;4. 循环引用。使用 raii 技术,如智能指针,可自动释放内存,避免泄漏。 ...
    99+
    2024-04-22
    c++ 内存泄漏
  • JavaScript函数中的Java数组:如何避免内存泄漏?
    在使用JavaScript函数时,经常需要使用Java数组。然而,这种用法有时会导致内存泄漏,从而影响应用程序的性能和稳定性。那么,如何避免这种情况呢?本文将介绍几种有效的方法来解决这个问题。 使用数组的静态变量 当定义一个Java数...
    99+
    2023-10-25
    数组 javascript 函数
  • Android内存泄漏检测-LeakCanary
      前言:   Android内测泄漏是比较常见的问题,在没有造成OOM之前,在测试过程中,也会经常性的忽略这个问题,但在android碎片化严重的,还是存在很多内测泄漏...
    99+
    2022-06-06
    leakcanary android内存泄漏 Android
  • 渲染函数 & JSX详情
    目录一、基础二、节点、树以及虚拟 DOM1、虚拟 DOM三、createElement 参数1、深入数据对象2、完整示例3、约束四、使用 JavaScript 代替模板功能1、v-i...
    99+
    2024-04-02
  • jvm内存泄漏排查流程
    1.查询cpu消耗最大的进程jps 先找出来那些java进程top 命令查看那些java进程消耗的cpu比较大2.查找占用内存最大的线程命令:ps p pid -L -o pcpu,pid,tid,time,tname,cmd%CPU ...
    99+
    2019-02-04
    java教程 jvm java
  • nodeJs内存泄漏问题详解
    之前一次偶然机会发现,react 在server渲染时,当NODE_ENV != production时,会导致内存泄漏。具体issues: https://github.com/facebook/reac...
    99+
    2022-06-04
    详解 内存 nodeJs
  • nodejs如何检查内存泄漏
    本篇内容介绍了“nodejs如何检查内存泄漏”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! ...
    99+
    2024-04-02
  • JavaScript内存泄漏实例分析
    这篇文章主要讲解了“JavaScript内存泄漏实例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“JavaScript内存泄漏实例分析”吧!js 内存泄...
    99+
    2024-04-02
  • JavaScript中内存泄漏怎么办
    这篇文章主要介绍JavaScript中内存泄漏怎么办,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、什么是内存泄漏?程序的运行需要内存。只要程序提出要求,操作系统或者运行时(run...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作