返回顶部
首页 > 资讯 > 后端开发 > PHP编程 >PHP怎么读取大文件
  • 725
分享到

PHP怎么读取大文件

2023-06-15 06:06:39 725人浏览 泡泡鱼
摘要

小编给大家分享一下PHP怎么读取大文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!衡量成功唯一能确认我们对代码所做改进是否有效的方式是:衡量一个糟糕的情况,然后

小编给大家分享一下PHP怎么读取大文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

衡量成功

唯一能确认我们对代码所做改进是否有效的方式是:衡量一个糟糕的情况,然后对比我们已经应用改进后的衡量情况。换言之,除非我们知道 “解决方案” 能帮我们到什么程度 (如果有的话),否则我们并不知道它是否是一个解决方案。

我们可以关注两个指标。首先是 CPU 使用率。我们要处理的过程运行得有多快或多慢?其次是内存使用率。脚本执行要占用多少内存?这些通常是成反比的 — 这意味着我们能够以 CPU 使用率为代价减少内存的使用率,反之亦可。

在一个异步处理模型 (例如多进程或多线程 php 应用程序) 中,CPU 和内存使用率都是重要的考量。在传统 PHP 架构中,任一达到服务器所限时这些通常都会成为一个麻烦。

测量 PHP 内部的 CPU 使用率是难以实现的。如果你确实关注这一块,可用考虑在 ubuntuMacOS 中使用类似于 top 的命令。对于 windows,则可用考虑使用 linux 子系统,这样你就能够在 Ubuntu 中使用 top 命令了。

在本教程中,我们将测量内存使用情况。我们将看一下 “传统” 脚本会使用多少内存。我们也会实现一些优化策略并对它们进行度量。最后,我希望你能做一个合理的选择。

以下是我们用于查看内存使用量的方法:

// fORMatBytes 方法取材于 php.net 文档memory_get_peak_usage();function formatBytes($bytes, $precision = 2) {    $units = array("b", "kb", "mb", "gb", "tb");    $bytes = max($bytes, 0);    $pow = floor(($bytes ? log($bytes) : 0) / log(1024));    $pow = min($pow, count($units) - 1);    $bytes /= (1 << (10 * $pow));    return round($bytes, $precision) . " " . $units[$pow];}

我们将在脚本的结尾处使用这些方法,以便于我们了解哪个脚本一次使用了最多的内存。

我们有什么选择?

我们有许多方法来有效地读取文件。有以下两种场景会使用到他们。我们可能希望同时读取和处理所有数据,对处理后的数据进行输出或者执行其他操作。 我们还可能希望对数据流进行转换而不需要访问到这些数据。

想象以下,对于第一种情况,如果我们希望读取文件并且把每 10,000 行的数据交给单独的队列进行处理。我们则需要至少把 10,000 行的数据加载到内存中,然后把它们交给队列管理器(无论使用哪种)。

对于第二种情况,假设我们想要压缩一个 api 响应的内容,这个 API 响应特别大。虽然这里我们不关心它的内容是什么,但是我们需要确保它被以一种压缩格式备份起来。

这两种情况,我们都需要读取大文件。不同的是,第一种情况我们需要知道数据是什么,而第二种情况我们不关心数据是什么。接下来,让我们来深入讨论一下这两种做法.

逐行读取文件

PHP 处理文件的函数很多,让我们将其中一些函数结合起来实现一个简单的文件阅读器

// from memory.phpfunction formatBytes($bytes, $precision = 2) {    $units = array("b", "kb", "mb", "gb", "tb");    $bytes = max($bytes, 0);    $pow = floor(($bytes ? log($bytes) : 0) / log(1024));    $pow = min($pow, count($units) - 1);    $bytes /= (1 << (10 * $pow));    return round($bytes, $precision) . " " . $units[$pow];}print formatBytes(memory_get_peak_usage());// from reading-files-line-by-line-1.phpfunction readTheFile($path) {    $lines = [];    $handle = fopen($path, "r");    while(!feof($handle)) {        $lines[] = trim(fgets($handle));    }    fclose($handle);    return $lines;}readTheFile("shakespeare.txt");require "memory.php";

我们正在阅读一个包括莎士比亚全部著作的文本文件。该文件大小大约为 5.5 MB。内存使用峰值为 12.8 MB。现在,让我们使用生成器来读取每一行:

// from reading-files-line-by-line-2.phpfunction readTheFile($path) {    $handle = fopen($path, "r");    while(!feof($handle)) {        yield trim(fgets($handle));    }    fclose($handle);}readTheFile("shakespeare.txt");require "memory.php";

文件大小相同,但是内存使用峰值为 393 KB。这个数据意义大不大,因为我们需要加入对文件数据的处理。例如,当出现两个空白行时,将文档拆分为多个块:

// from reading-files-line-by-line-3.php$iterator = readTheFile("shakespeare.txt");$buffer = "";foreach ($iterator as $iteration) {    preg_match("/\n{3}/", $buffer, $matches);    if (count($matches)) {        print ".";        $buffer = "";    } else {        $buffer .= $iteration . PHP_EOL;    }}require "memory.php";

有人猜测这次使用多少内存吗?即使我们将文本文档分为 126 个块,我们仍然只使用 459 KB 的内存。鉴于生成器的性质,我们将使用的最大内存是在迭代中需要存储最大文本块的内存。在这种情况下,最大的块是 101985 个字符。

生成器还有其他用途,但显然它可以很好的读取大型文件。如果我们需要处理数据,生成器可能是最好的方法。

文件之间的管道

在不需要处理数据的情况下,我们可以将文件数据从一个文件传递到另一个文件。这通常称为管道 (大概是因为除了两端之外,我们看不到管道内的任何东西,当然,只要它是不透明的)。我们可以通过流 (stream) 来实现,首先,我们编写一个脚本实现一个文件到另一个文件的传输,以便我们可以测量内存使用情况:

// from piping-files-1.phpfile_put_contents(    "piping-files-1.txt", file_get_contents("shakespeare.txt"));require "memory.php";

结果并没有让人感到意外。该脚本比其复制的文本文件使用更多的内存来运行。这是因为脚本必须在内存中读取整个文件直到将其写入另外一个文件。对于小的文件而言,这种操作是 OK 的。但是将其用于大文件时,就不是那么回事了。

让我们尝试从一个文件流式传输 (或管道传输) 到另一个文件:

// from piping-files-2.php$handle1 = fopen("shakespeare.txt", "r");$handle2 = fopen("piping-files-2.txt", "w");stream_copy_to_stream($handle1, $handle2);fclose($handle1);fclose($handle2);require "memory.php";

这段代码有点奇怪。我们打开两个文件的句柄,第一个处于读取模式,第二个处于写入模式。然后,我们从第一个复制到第二个。我们通过再次关闭两个文件来完成。当你知道内存使用为 393 KB 时,可能会感到惊讶。这个数字看起来很熟悉,这不就是利用生成器保存逐行读取内容时所使用的内存吗。这是因为fgets的第二个参数定义了每行要读取的字节数 (默认为-1或到达新行之前的长度)。stream_copy_to_stream 的第三个参数是相同的(默认值完全相同)。stream_copy_to_stream 一次从一个流读取一行,并将其写入另一流。由于我们不需要处理该值,因此它会跳过生成器产生值的部分

单单传输文字还不够实用,所以考虑下其他例子。假设我们想从 CDN 输出图像,可以用以下代码来描述

// from piping-files-3.phpfile_put_contents(    "piping-files-3.jpeg", file_get_contents(        "https://GitHub.com/assertchris/uploads/raw/master/rick.jpg"    ));// ...or write this straight to stdout, if we don't need the memory inforequire "memory.php";

想象一下应用程度执行到该步骤。这次我们不是要从本地文件系统中获取图像,而是从 CDN 获取。我们用 file_get_contents 代替更优雅的处理方式 (例如 Guzzle),它们的实际效果是一样的。

内存使用情况为 581KB,现在,我们如何尝试进行流传输呢?

// from piping-files-4.php$handle1 = fopen("Https://github.com/assertchris/uploads/raw/master/rick.jpg", "r");$handle2 = fopen("piping-files-4.jpeg", "w");// ...or write this straight to stdout, if we don't need the memory infostream_copy_to_stream($handle1, $handle2);fclose($handle1);fclose($handle2);require "memory.php";

内存使用比刚才略少 (400 KB),但是结果是相同的。如果我们不需要内存信息,也可以打印至标准输出。PHP 提供了一种简单的方法来执行此操作:

$handle1 = fopen("https://github.com/assertchris/uploads/raw/master/rick.jpg", "r");$handle2 = fopen("php://stdout", "w");stream_copy_to_stream($handle1, $handle2);fclose($handle1);fclose($handle2);// require "memory.php";

其他流

还存在一些流可以通过管道来读写。

  • php://stdin只读

  • php://stderr只写,与php://stdout相似

  • php://input只读,使我们可以访问原始请求内容

  • php://output只写,可让我们写入输出缓冲区

  • php://memory与php://temp(可读写) 是临时存储数据的地方。区别在于数据足够大时php:/// temp就会将数据存储在文件系统中,而php:/// memory将继续存储在内存中直到耗尽。

过滤器

我们可以对流使用另一个技巧,称为过滤器。它介于两者之间,对数据进行了适当的控制使其不暴露给外接。假设我们要压缩shakespeare.txt文件。我们可以使用 Zip 扩展

// from filters-1.php$zip = new ZipArcHive();$filename = "filters-1.zip";$zip->open($filename, ZipArchive::CREATE);$zip->addFromString("shakespeare.txt", file_get_contents("shakespeare.txt"));$zip->close();require "memory.php";

这段代码虽然整洁,但是总共使用了大概 10.75 MB 的内存。我们可以使用过滤器来进行优化

// from filters-2.php$handle1 = fopen("php://filter/zlib.deflate/resource=shakespeare.txt", "r");$handle2 = fopen("filters-2.deflated", "w");stream_copy_to_stream($handle1, $handle2);fclose($handle1);fclose($handle2);require "memory.php";

在这里,我们可以看到php:///filter/zlib.deflate过滤器,该过滤器读取和压缩资源的内容。然后我们可以将该压缩数据通过管道传输到另一个文件中。这仅使用了 896KB 内存。

虽然格式不同,或者说使用 zip 压缩文件有其他诸多好处。但是,你不得不考虑:如果选择其他格式你可以节省 12 倍的内存,你会不会心动?

要对数据进行解压,只需要通过另外一个 zlib 过滤器:

// from filters-2.phpfile_get_contents(    "php://filter/zlib.inflate/resource=filters-2.deflated");

自定义流

fopen和file_get_contents具有它们自己的默认选项集,但是它们是完全可定制的。要定义它们,我们需要创建一个新的流上下文

// from creating-contexts-1.php$data = join("&", [    "twitter=assertchris",]);$headers = join("\r\n", [    "Content-type: application/x-www-form-urlencoded",    "Content-length: " . strlen($data),]);$options = [    "http" => [        "method" => "POST",        "header"=> $headers,        "content" => $data,    ],];$context = stream_content_create($options);$handle = fopen("https://example.com/reGISter", "r", false, $context);$response = stream_get_contents($handle);fclose($handle);

本例中,我们尝试发送一个 POST 请求给 API。API 端点是安全的,不过我们仍然使用了 http 上下文属性(可用于 http 或者 https)。我们设置了一些头部,并打开了 API 的文件句柄。我们可以将句柄以只读方式打开,上下文负责编写。

创建自定义协议和过滤器

总结之前,我们先谈谈创建自定义协议。

Protocol {    public resource $context;    public __construct ( void )    public __destruct ( void )    public bool dir_closedir ( void )    public bool dir_opendir ( string $path , int $options )    public string dir_readdir ( void )    public bool dir_rewinddir ( void )    public bool mkdir ( string $path , int $mode , int $options )    public bool rename ( string $path_from , string $path_to )    public bool rmdir ( string $path , int $options )    public resource stream_cast ( int $cast_as )    public void stream_close ( void )    public bool stream_eof ( void )    public bool stream_flush ( void )    public bool stream_lock ( int $operation )    public bool stream_metadata ( string $path , int $option , mixed $value )    public bool stream_open ( string $path , string $mode , int $options ,        string &$opened_path )    public string stream_read ( int $count )    public bool stream_seek ( int $offset , int $whence = SEEK_SET )    public bool stream_set_option ( int $option , int $arg1 , int $arg2 )    public array stream_stat ( void )    public int stream_tell ( void )    public bool stream_truncate ( int $new_size )    public int stream_write ( string $data )    public bool unlink ( string $path )    public array url_stat ( string $path , int $flags )}

我们并不打算实现其中一个,因为我认为它值得拥有自己的教程。有很多工作要做。但是一旦完成工作,我们就可以很容易地注册流包装器:

if (in_array("highlight-names", stream_get_wrappers())) {    stream_wrapper_unregister("highlight-names");}stream_wrapper_register("highlight-names", "HighlightNamesProtocol");$highlighted = file_get_contents("highlight-names://story.txt");

同样,也可以创建自定义流过滤器。

Filter {    public $filtername;    public $params    public int filter ( resource $in , resource $out , int &$consumed ,        bool $closing )    public void onClose ( void )    public bool onCreate ( void )}

可被轻松注册

$handle = fopen("story.txt", "w+");stream_filter_append($handle, "highlight-names", STREAM_FILTER_READ);

highlight-names 需要与新过滤器类的 filtername 属性匹配。还可以在 php:///filter/highligh-names/resource=story.txt 字符串中使用自定义过滤器。定义过滤器比定义协议要容易得多。原因之一是协议需要处理目录操作,而过滤器仅需要处理每个数据块。

如果您愿意,我强烈建议您尝试创建自定义协议和过滤器。如果您可以将过滤器应用于 stream_copy_to_stream 操作,则即使处理令人讨厌的大文件,您的应用程序也将几乎不使用任何内存。想象一下编写调整大小图像过滤器或加密应用程序过滤器。

如果你愿意,我强烈建议你尝试创建自定义协议和过滤器。如果你可以将过滤器应用于 stream_copy_to_stream 操作,即使处理烦人的大文件,你的应用程序也几乎不使用任何内存。想象下编写 resize-image 过滤器和 encrypt-for-application 过滤器吧。

以上是“PHP怎么读取大文件”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网PHP编程频道!

--结束END--

本文标题: PHP怎么读取大文件

本文链接: https://lsjlt.com/news/278564.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • PHP怎么读取大文件
    小编给大家分享一下PHP怎么读取大文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!衡量成功唯一能确认我们对代码所做改进是否有效的方式是:衡量一个糟糕的情况,然后...
    99+
    2023-06-15
  • python怎么读取大文件
    这篇文章主要介绍“python怎么读取大文件”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么读取大文件”文章能帮助大家解决问题。可以通过两种方法利用python读取大文件:第一种是利用...
    99+
    2023-06-30
  • php怎么读取大文件末尾n行
    这篇文章主要介绍“php怎么读取大文件末尾n行”,在日常操作中,相信很多人在php怎么读取大文件末尾n行问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”php怎么读取大文件末尾n行”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-20
  • 怎么中python读取大文件
    本篇文章为大家展示了怎么中python读取大文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞...
    99+
    2023-06-14
  • PHP中怎么读取文件
    本篇文章给大家分享的是有关PHP中怎么读取文件,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。< php  $file = '...
    99+
    2023-06-17
  • 详解PHP如何读取大文件
    目录衡量成功我们有什么选择?逐行读取文件文件之间的管道其他流过滤器自定义流创建自定义协议和过滤器总结衡量成功 唯一能确认我们对代码所做改进是否有效的方式是:衡量一个糟糕的情况,然后对...
    99+
    2024-04-02
  • Python 读取大文件
    在处理大数据时,有可能会碰到好几个 G 大小的文件。如果通过一些工具(例如:NotePad++)打开它,会发生错误,无法读取任何内容。 那么,在 Python 中,如何快速地读取这些大文件呢? | 版权声明:一去、二三里,未经博...
    99+
    2023-01-31
    大文件 Python
  • python读取大文件
    python读取文件对各列进行索引 可以用readlines, 也可以用readline, 如果是大文件一般就用readlined={} a_in = open("testfile.txt", "r") for line in a_in...
    99+
    2023-01-31
    大文件 python
  • PHP怎样读取文件
    这篇文章主要为大家展示了“PHP怎样读取文件”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“PHP怎样读取文件”这篇文章吧。PHP 读取文件 - fread()f...
    99+
    2024-04-02
  • 怎么在PHP中读取文件
    小编给大家分享一下怎么在PHP中读取文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.fread语法:fread  ( reso...
    99+
    2023-06-14
  • php怎么读取文件内容
    在PHP中,可以使用`file_get_contents()`函数来读取文件内容。这个函数可以将整个文件内容读取为一个字符串,并返回...
    99+
    2023-09-27
    php
  • java读取大文件文本怎么处理
    处理大文件文本可以使用Java中的流式处理,以避免一次性将整个文件加载到内存中。以下是一个示例代码,使用BufferedReader...
    99+
    2023-09-20
    java
  • java怎么通过文件流读取文件大小
    要通过文件流读取文件的大小,可以使用Java中的File类和FileInputStream类来实现。下面是一个示例代码:```jav...
    99+
    2023-09-22
    java
  • 怎么用Java高效读取大文件
    这篇文章主要讲解了“怎么用Java高效读取大文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Java高效读取大文件”吧!内存读取第一个版本,阿粉采用...
    99+
    2024-04-02
  • 怎么在Golang中读取超大文件
    怎么在Golang中读取超大文件?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。什么是golanggolang 是Google开发的一种静态强类型、编译型、并发型...
    99+
    2023-06-14
  • Java中怎么读取文件夹大小
    今天就跟大家聊聊有关Java中怎么读取文件夹大小,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。(一)单线程递归方式package com.taobao.test; ...
    99+
    2023-06-17
  • golang怎么读取大型日志文件
    在Go中,可以使用bufio和os包来读取大型日志文件。以下是一个示例代码,可以逐行读取大型日志文件: package main ...
    99+
    2023-10-20
    golang
  • Python读取大文件(GB)
    最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法。 Preliminary   我们谈到“...
    99+
    2023-01-31
    大文件 Python GB
  • php 怎么读大文件 某几行
    本文操作环境:windows7系统、PHP7.1版、DELL G3电脑php 怎么读大文件 某几行?PHP读取大文件的多种方法介绍读取大文件一直是一个头痛的问题,我们像使用php开发读取小文件可以直接使用各种函数实现,但一到大文章就会发现常...
    99+
    2019-06-14
    php
  • Golang文件读取操作:快速读取大文件的技巧
    Golang文件读取操作:快速读取大文件的技巧,需要具体代码示例 在Golang程序设计中,文件读取是一个非常常见的操作。但当需要读取大文件时,通常是一件比较耗费时间和资源的操作。因此,如何快速读取大文件是一...
    99+
    2024-01-19
    大文件 Golang 文件读取
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作