首页 > 资讯 > 后端开发 > PHP编程 >php实现的一个很好用HTML解析器类可用于采集数据

279

分享到

php实现的一个很好用HTML解析器类可用于采集数据

HTML解析器 2022-11-15 23:11:42 279人浏览薄情痞子

摘要

<?PHP $oldSetting = libxml_use_internal_errors( true ); &nb

<?PHP
$oldSetting = libxml_use_internal_errors( true );
libxml_clear_errors();

class XF_htmlDom
{
    private $_xpath = null;
    private $_nodePath = '';

    public function __construct($xpath = null, $nodePath = '')
    {
        $this->_xpath = $xpath;
        $this->_nodePath = $nodePath;
    }

    public function loadHtml($url)
    {
        ini_set('user_agent', 'Mozilla/5.0 (linux; U; Android 2.1; en-us; Nexus One Build/ERD62) AppleWEBKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17 –Nexus');
        $content = '';
        if(strpos(strtolower($url), 'Http')===false)
        {
            $content = file_get_contents($url);
        }
        else
        {
            $ch = curl_init();
            $user_agent = "Baiduspider+(+http://www.baidu.com/search/spider.htm)";
            $user_agent1='Mozilla/5.0 (windows NT 5.1; rv:6.0) Gecko/20100101 Firefox/6.0';
            curl_setopt($ch, CURLOPT_URL, $url);
            curl_setopt($ch, CURLOPT_HEADER, false);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($ch, CURLOPT_REFERER, $url);
            curl_setopt($ch, CURLOPT_USERAGENT, $user_agent1);
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
            $content =curl_exec($ch);
            curl_close($ch);
        }

        $html = new DOMDocument();
        $html->loadHtml($content);
        $this->_xpath = new DOMXPath( $html );
        //return $this;

    }

    public function find($query, $index = null)
    {
        if($this->_nodePath == '')
            $this->_nodePath = '//';
        else
            $this->_nodePath .= '/';

        $nodes = $this->_xpath->query($this->_nodePath.$query);
        //echo $nodes->item(0)->getNodePath();exit;


        if ($index == null && !is_numeric($index))
        {
            $tmp = array();
            foreach ($nodes as $node)
            {
                $tmp[] = new XF_HtmlDom($this->_xpath, $node->getNodePath());
            }
            return $tmp;
        }
        return new XF_HtmlDom($this->_xpath,$this->_xpath->query($this->_nodePath.$query)->item($index)->getNodePath());
    }


    public function text()
    {
        if ($this->_nodePath != '' && $this->_xpath != null )
            return $this->_xpath->query($this->_nodePath)->item(0)->textContent;
        else
            return false;
    }


    public function getAttribute($name)
    {
        if ($this->_nodePath != '' && $this->_xpath != null )
            return $this->_xpath->query($this->_nodePath)->item(0)->getAttribute($name);
        else
            return false;
    }

    public function __get($name)
    {
        if($name == 'innertext')
            return $this->text();
        else
            return $this->getAttribute($name);
    }
}
$xp = new xf_HtmlDom();
$xp->loadHtml('http://www.aizhan.com/siteall/www.opendir.cn/');
$rows = $xp->find("td[@id='baidu']/a", 0)->innertext;
print_r($rows);

您可能感兴趣的文档:

--结束END--

本文标题: php实现的一个很好用HTML解析器类可用于采集数据

本文链接: https://lsjlt.com/news/172784.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

php实现的一个很好用HTML解析器类可用于采集数据

php实现的一个很好用HTML解析器类可用于采集数据

教你用python和php写一个随机user_agent，突破反爬，实现数据大量采集

实例讲解怎么用php实现一个数据验证功能

PHP实现数据库容器化高可用的方法

实战解析：如何利用数据库触发器实现数据一致性

如何使用PHP实现一个简单的数据填充功能

Python机器学习应用之基于天气数据集的XGBoost分类篇解读

实现一款高可用的 TCP 数据传输服务器（Java版）

如何使用MySQL和JavaScript实现一个简单的数据可视化功能

如何使用MySQL和JavaScript实现一个简单的数据分析功能

怎么使用PHP和数据库实现一个简单的队列系统

如何使用MySQL和Ruby实现一个简单的数据查询分析功能

如何使用MySQL和JavaScript实现一个简单的数据分析报告功能

如何使用MySQL和Ruby实现一个简单的数据分析报表功能

PHP数据结构：布隆过滤器的巧用，实现高效的集合检索

如何在Java中使用不同的数据类型？哪个框架可以帮助你实现同步？

分布式系统中的PHP并发编程：使用哪种数据类型可以更好地解决并发问题？

使用 numpy 容器在 Go 中实现大数据分析，你需要知道的一切！

【一种使用浏览器读取本地excel、josn等数据文件的方法】Python+JavaScript+HTML实现

华为云云耀云服务器L实例评测｜用PHP从数据库到后端到前端完整实现一个中秋节祝福语项目

php变量作用域是什么

PHP isset按钮不起作用怎么解决

php中target标签怎么使用

php怎么获取网页内容

php怎么实现批量发送邮件

PHP方法参数传递及返回值详解

PHP7下载PDF文件失败的解决方法

最佳在线PHP编辑器：快速创建文件

解决PHP数据库中爱好无法显示的问题

PHP验证码复制粘贴问题解决方法分享