PHP:以最快或最有效的方式编写大量小文件

时间:2016-09-11 14:14:28

标签: php io

想象一下,一个广告系列将有10,000到30,000个文件,每个大约4kb应写入磁盘。

而且,会有几个广告系列同时运行。 10个上衣。

目前,我采用通常的方式:file_put_contents

它完成了工作,但速度很慢,而且它的php进程一直占用100%的cpu。

fopen, fwrite, fclose,结果类似于file_put_contents

我尝试了一些异步io的内容,例如php eioswoole

它更快,但在一段时间后它会产生“太多的打开文件”。

php -r 'echo exec("ulimit -n");'结果是800000。

任何帮助将不胜感激!

好吧,这有点令人尴尬......你们是正确的,瓶颈是它如何生成文件内容......

3 个答案:

答案 0 :(得分:6)

阅读完您的描述后,我知道您正在编写许多文件,每个文件都很小。 PHP通常工作的方式(至少在Apache服务器中),每个文件系统访问都有开销:为每个文件打开并维护文件指针和缓冲区。由于此处没有要查看的代码示例,因此很难看出效率低下的地方。

但是,对于300,000多个文件使用file_put_contents()似乎比直接使用fopen()和fwrite()或fflush()效率稍差,然后在完成时使用fclose()。我的意思是基于一位研究员在http://php.net/manual/en/function.file-put-contents.php#105421的file_put_contents()的PHP文档的评论中所做的基准测试 接下来,在处理如此小的文件大小时,听起来很有可能使用数据库而不是平面文件(我相信你之前已经有过)。无论是mySQL还是PostgreSQL,数据库都经过高度优化,可以同时访问许多记录,并且可以通过文件系统访问永远无法实现的内部平衡CPU工作负载(并且记录中的二进制数据也可以)。除非您需要直接从服务器硬盘访问真实文件,否则数据库可以通过允许PHP将单个记录作为文件数据通过Web返回(即使用header()函数)来模拟许多文件。再说一次,我假设这个PHP作为服务器上的Web界面运行。

总的来说,我正在阅读的内容表明,除了文件系统访问之外,其他地方可能效率低下。文件内容是如何生成的?操作系统如何处理文件访问?是否涉及压缩或加密?这些图像或文本数据?操作系统是写入一个硬盘驱动器,软件RAID阵列还是其他一些布局?这些是我能想到的一些问题,只是瞥了一眼你的问题。希望我的回答有所帮助。欢呼声。

答案 1 :(得分:6)

我假设您不能遵循SomeDude关于使用数据库的非常好的建议,并且您已经执行了可以执行的硬件调整(例如,增加缓存,增加RAM以避免交换抖动,购买SSD驱动器)

我尝试将文件生成卸载到其他进程。

你可以,例如安装Redis并将文件内容存储到密钥库中,这非常快。然后,一个不同的并行进程可以从密钥库中提取数据,删除它,并写入磁盘文件。

这将从主PHP进程中删除所有磁盘I / O,并允许您监视积压(仍有多少密钥对未刷新:理想情况下为零)并专注于内容生成的瓶颈。你可能需要一些额外的RAM。

另一方面,这与写入RAM磁盘没有太大区别。您也可以将数据输出到RAM磁盘,它甚至可能更快:

# As root
mkdir /mnt/ramdisk
mount -t tmpfs -o size=512m tmpfs /mnt/ramdisk
mkdir /mnt/ramdisk/temp 
mkdir /mnt/ramdisk/ready
# Change ownership and permissions as appropriate

并在PHP中:

$fp = fopen("/mnt/ramdisk/temp/{$file}", "w");
fwrite($fp, $data);
fclose($fp);
rename("/mnt/ramdisk/temp/{$file}", "/mnt/ramdisk/ready/{$file}");

然后有一个不同的进程(crontab?或者连续运行守护进程?)从" ready"移动文件。 RAM磁盘到磁盘的目录,然后删除RAM就绪文件。

文件系统

创建文件所需的时间取决于目录中的文件数,其中各种依赖函数本身依赖于文件系统。 ext4,ext3,zfs,btrfs等将表现出不同的行为。具体而言,如果文件数量超过某个数量,您可能会遇到明显的减速。

因此,您可能希望尝试在一个目录中创建大量示例文件,并查看此时间随着数字的增长而增长的时间。请记住,访问不同目录会有性能损失,因此不建议立即使用大量子目录。

<?php
    $payload    = str_repeat("Squeamish ossifrage. \n", 253);
    $time       = microtime(true);
    for ($i = 0; $i < 10000; $i++) {
        $fp = fopen("file-{$i}.txt", "w");
        fwrite($fp, $payload);
        fclose($fp);
    }
    $time = microtime(true) - $time;
    for ($i = 0; $i < 10000; $i++) {
        unlink("file-{$i}.txt");
    }
    print "Elapsed time: {$time} s\n";

在我的系统上创建10000个文件需要0.42秒,但创建100000个文件(10x)需要5.9秒,而不是4.2。另一方面,在8个不同的目录中创建八分之一的文件(我找到的最佳折衷方案)需要6.1秒,所以它不值得。

但是假设创建300000个文件需要25秒而不是17.7;将这些文件分成十个目录可能需要22秒,并使目录拆分值得。

并行处理:r策略

TL; DR虽然您的里程可能会有所不同,但在我的系统上运行并不好。如果要完成的操作是冗长(这里它们不是)并且与主进程有不同的约束,那么将它们分别卸载到不同的线程可能是有利的,前提是你不要产生太多线程。

您需要安装pcntl functions

$payload    = str_repeat("Squeamish ossifrage. \n", 253);

$time       = microtime(true);
for ($i = 0; $i < 100000; $i++) {
    $pid = pcntl_fork();
    switch ($pid) {
        case 0:
            // Parallel execution.
            $fp = fopen("file-{$i}.txt", "w");
            fwrite($fp, $payload);
            fclose($fp);
            exit();
        case -1:
            echo 'Could not fork Process.';
            exit();
        default:
            break;
    }
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";

(花哨的名字r strategy取自生物学)。

在这个例子中,与每个孩子需要做的事情相比,产卵时间是灾难性的。因此,整体处理时间猛增。对于更复杂的孩子来说,事情会变得更好,但你必须小心,不要将剧本变成叉炸弹。

如果可能的话,一种可能性是将要创建的文件分成例如每个10%的块。然后,每个孩子将使用chdir()更改其工作目录,并在其他目录中创建其文件。这将否定在不同子目录中写入文件的惩罚(每个子项写入当前目录),同时从写入较少的文件中受益。在这种情况下,在孩子中使用非常轻量级和I / O绑定的操作,策略也是不值得的(我的执行时间加倍)。

并行处理:K策略

TL; DR这个更复杂,但在我的系统上运行良好...您的里程可能会有所不同。 虽然r策略涉及很多的即发即弃线程,但K策略需要一个有限的(可能是一个)孩子,这个孩子是经过精心培育的。在这里,我们将所有文件的创建卸载到一个并行线程,并通过套接字与它通信。

$payload    = str_repeat("Squeamish ossifrage. \n", 253);

$sockets = array();
$domain = (strtoupper(substr(PHP_OS, 0, 3)) == 'WIN' ? AF_INET : AF_UNIX);
if (socket_create_pair($domain, SOCK_STREAM, 0, $sockets) === false) {
   echo "socket_create_pair failed. Reason: ".socket_strerror(socket_last_error());
}
$pid = pcntl_fork();
if ($pid == -1) {
    echo 'Could not fork Process.';
} elseif ($pid) {
    /*parent*/
    socket_close($sockets[0]);
} else {
    /*child*/
    socket_close($sockets[1]);
    for (;;) {
        $cmd = trim(socket_read($sockets[0], 5, PHP_BINARY_READ));
        if (false === $cmd) {
            die("ERROR\n");
        }
        if ('QUIT' === $cmd) {
            socket_write($sockets[0], "OK", 2);
            socket_close($sockets[0]);
            exit(0);
        }
        if ('FILE' === $cmd) {
            $file   = trim(socket_read($sockets[0], 20, PHP_BINARY_READ));
            $len    = trim(socket_read($sockets[0], 8, PHP_BINARY_READ));
            $data   = socket_read($sockets[0], $len, PHP_BINARY_READ);
            $fp     = fopen($file, "w");
            fwrite($fp, $data);
            fclose($fp);
            continue;
        }
        die("UNKNOWN COMMAND: {$cmd}");
    }
}

$time       = microtime(true);
for ($i = 0; $i < 100000; $i++) {
    socket_write($sockets[1], sprintf("FILE %20.20s%08.08s", "file-{$i}.txt", strlen($payload)));
    socket_write($sockets[1], $payload, strlen($payload));
    //$fp = fopen("file-{$i}.txt", "w");
    //fwrite($fp, $payload);
    //fclose($fp);
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";

socket_write($sockets[1], "QUIT\n", 5);
$ok = socket_read($sockets[1], 2, PHP_BINARY_READ);
socket_close($sockets[1]);

这对系统配置非常依赖。例如在单处理器,单核,非线程CPU上,这是疯狂的 - 你至少会使总运行时间翻倍,但更有可能它将从3到10倍慢< / em>的

所以这绝对是在旧系统上运行的东西。

在现代多线程CPU上,假设主内容创建循环受CPU限制,您可能会遇到相反的情况 - 脚本可能会快十倍。

在我的系统上,&#34;分叉&#34;上面的解决方案运行速度比快三倍。我期待更多,但你有。

当然,性能是否值得增加复杂性和维护,仍有待评估。

坏消息

在上面进行实验时,我得出的结论是,Linux中合​​理配置和高性能的计算机上的文件创建速度很快,所以不仅难以挤出更多的性能,但如果您遇到缓慢,则很可能与 文件无关。尝试详细说明如何创建该内容。

答案 2 :(得分:1)

主要想法是减少文件数量。 例如:可以在100个文件中添加1,000个文件,每个文件包含10个文件 - 并通过爆炸进行解析,写入速度提高5倍,读取+解析速度提高14倍
使用file_put_contents和fwrite优化后,速度不会超过1.x.此解决方案可用于读/写。其他解决方案可能是mysql或其他db。

在我的计算机上创建带有小字符串的30k文件需要96.38秒并在一个文件中附加30k倍相同的字符串需要0.075秒

我可以为您提供一个不寻常的解决方案,当您可以使用较少的file_put_contents函数时。请注意,我会向您展示一个简单的代码,以了解它是如何工作的。

$start = microtime(true);

    $str = "Aaaaaaaaaaaaaaaaaaaaaaaaa";

    if( !file_exists("test/") ) mkdir("test/");

    foreach( range(1,1000) as $i ) {
        file_put_contents("test/".$i.".txt",$str);
    }

    $end = microtime(true); 
    echo "elapsed_file_put_contents_1: ".substr(($end - $start),0,5)." sec\n";

    $start = microtime(true);


    $out = '';
    foreach( range(1,1000) as $i ) {
        $out .= $str;
    }
    file_put_contents("out.txt",$out);

    $end = microtime(true); 
    echo "elapsed_file_put_contents_2: ".substr(($end - $start),0,5)." sec\n";

这是一个包含1000个文件和已用时间的完整示例

with 1000 files writing file_put_contens: elapsed: 194.4 sec writing file_put_contens APPNED :elapsed: 37.83 sec ( 5x faster ) ............ reading file_put_contens elapsed: 2.401 sec reading append elapsed: 0.170 sec ( 14x faster )

    $start = microtime(true);

    $allow_argvs = array("gen_all","gen_few","read_all","read_few");

    $arg = isset($argv[1]) ? $argv[1] : die("php ".$argv[0]." gen_all ( ".implode(", ",$allow_argvs).")");

    if( !in_array($arg,$allow_argvs) ) {
        die("php ".$argv[0]." gen_all ( ".implode(", ",$allow_argvs).")");
    }


    if( $arg=='gen_all' ) {

        $dir_campain_all_files = "campain_all_files/";
        if( !file_exists($dir_campain_all_files) ) die("\nFolder ".$dir_campain_all_files." not exist!\n");

        $exists_campaings = false;
        foreach( range(1,10) as $i ) { if( file_exists($dir_campain_all_files.$i) ) { $exists_campaings = true; } }
        if( $exists_campaings ) {
            die("\nDelete manualy all subfolders from ".$dir_campain_all_files." !\n");
        }   
        build_campain_dirs($dir_campain_all_files);

        // foreach in campaigns
        foreach( range(1,10) as $i ) {
            $campain_dir = $dir_campain_all_files.$i."/";
            $nr_of_files = 1000;  
            foreach( range(1,$nr_of_files) as $f ) {
                $file_name = $f.".txt";
                $data_file = generateRandomString(4*1024);
                $dir_file_name = $campain_dir.$file_name;
                file_put_contents($dir_file_name,$data_file);
            }
            echo "campaing #".$i." done! ( ".$nr_of_files." files writen ).\n";
        }   
    }


    if( $arg=='gen_few' ) { 
        $delim_file = "###FILE###";
        $delim_contents = "@@@FILE@@@";

        $dir_campain = "campain_few_files/";
        if( !file_exists($dir_campain) ) die("\nFolder ".$dir_campain_all_files." not exist!\n");   

        $exists_campaings = false;
        foreach( range(1,10) as $i ) { if( file_exists($dir_campain.$i) ) { $exists_campaings = true; } }
        if( $exists_campaings ) {
            die("\nDelete manualy all files from ".$dir_campain." !\n");
        }           

        $amount = 100; // nr_of_files_to_append

        $out = ''; // here will be appended

        build_campain_dirs($dir_campain);

        // foreach in campaigns
        foreach( range(1,10) as $i ) {
            $campain_dir = $dir_campain.$i."/";

            $nr_of_files = 1000; 
            $cnt_few=1;
            foreach( range(1,$nr_of_files) as $f ) {

                $file_name = $f.".txt";
                $data_file = generateRandomString(4*1024);

                $my_file_and_data = $file_name.$delim_file.$data_file;
                $out .= $my_file_and_data.$delim_contents;

                // append in a new file
                if( $f%$amount==0 ) {
                    $dir_file_name = $campain_dir.$cnt_few.".txt";
                    file_put_contents($dir_file_name,$out,FILE_APPEND);
                    $out = '';
                    $cnt_few++;
                }

            }
            // append remaning files 
            if( !empty($out) ) {
                $dir_file_name = $campain_dir.$cnt_few.".txt";
                file_put_contents($dir_file_name,$out,FILE_APPEND);
                $out = '';

            }
            echo "campaing #".$i." done! ( ".$nr_of_files." files writen ).\n";
        }
    }


    if( $arg=='read_all' ) {    
        $dir_campain = "campain_all_files/";

        $exists_campaings = false;
        foreach( range(1,10) as $i ) {
            if( file_exists($dir_campain.$i) ) {
                $exists_campaings = true;
            }
        }

        foreach( range(1,10) as $i ) {
            $campain_dir = $dir_campain.$i."/";
            $files = getFiles($campain_dir); 
            foreach( $files as $file ) {
                $data = file_get_contents($file);
                $substr = substr($data, 100, 5); // read 5 chars after char100       
            }
            echo "campaing #".$i." done! ( ".count($files)." files readed ).\n";

        }   
    }



    if( $arg=='read_few' ) {
        $dir_campain = "campain_few_files/";

        $exists_campaings = false;
        foreach( range(1,10) as $i ) {
            if( file_exists($dir_campain.$i) ) {
                $exists_campaings = true;
            }
        }

        foreach( range(1,10) as $i ) {
            $campain_dir = $dir_campain.$i."/";
            $files = getFiles($campain_dir); 
            foreach( $files as $file ) {
                $data_temp = file_get_contents($file);
                $explode = explode("@@@FILE@@@",$data_temp);
                //@mkdir("test/".$i);
                foreach( $explode as $exp ) {
                    $temp_exp = explode("###FILE###",$exp);
                    if( count($temp_exp)==2 ) {
                        $file_name = $temp_exp[0];
                        $file_data = $temp_exp[1];
                        $substr = substr($file_data, 100, 5); // read 5 chars after char100     
                        //file_put_contents("test/".$i."/".$file_name,$file_data); // test if files are recreated correctly
                    }
                }
                //echo $file." has ".strlen($data_temp)." chars!\n";
            }
            echo "campaing #".$i." done! ( ".count($files)." files readed ).\n";

        }   
    }

    $end = microtime(true); 
    echo "elapsed: ".substr(($end - $start),0,5)." sec\n";


    echo "\n\nALL DONE!\n\n";






    /*************** FUNCTIONS ******************/


    function generateRandomString($length = 10) {
        $characters = '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
        $charactersLength = strlen($characters);
        $randomString = '';
        for ($i = 0; $i < $length; $i++) {
            $randomString .= $characters[rand(0, $charactersLength - 1)];
        }
        return $randomString;
    }

    function build_campain_dirs($dir_campain) {
        foreach( range(1,10) as $i ) {
            $dir = $dir_campain.$i;
            if( !file_exists($dir) ) {
                mkdir($dir);
            }
        }
    }

    function getFiles($dir) {
        $arr = array();
        if ($handle = opendir($dir)) {
            while (false !== ($file = readdir($handle))) {
                if ($file != "." && $file != "..") {
                    $arr[] = $dir.$file;
                }
            }
            closedir($handle);
        }
        return $arr;
    }