想象一下,一个广告系列将有10,000到30,000个文件,每个大约4kb应写入磁盘。
而且,会有几个广告系列同时运行。 10个上衣。
目前,我采用通常的方式:file_put_contents
。
它完成了工作,但速度很慢,而且它的php进程一直占用100%的cpu。
fopen, fwrite, fclose
,结果类似于file_put_contents
。
我尝试了一些异步io的内容,例如php eio
和swoole
。
它更快,但在一段时间后它会产生“太多的打开文件”。
php -r 'echo exec("ulimit -n");'
结果是800000。
任何帮助将不胜感激!
好吧,这有点令人尴尬......你们是正确的,瓶颈是它如何生成文件内容......答案 0 :(得分:6)
阅读完您的描述后,我知道您正在编写许多文件,每个文件都很小。 PHP通常工作的方式(至少在Apache服务器中),每个文件系统访问都有开销:为每个文件打开并维护文件指针和缓冲区。由于此处没有要查看的代码示例,因此很难看出效率低下的地方。
但是,对于300,000多个文件使用file_put_contents()似乎比直接使用fopen()和fwrite()或fflush()效率稍差,然后在完成时使用fclose()。我的意思是基于一位研究员在http://php.net/manual/en/function.file-put-contents.php#105421的file_put_contents()的PHP文档的评论中所做的基准测试 接下来,在处理如此小的文件大小时,听起来很有可能使用数据库而不是平面文件(我相信你之前已经有过)。无论是mySQL还是PostgreSQL,数据库都经过高度优化,可以同时访问许多记录,并且可以通过文件系统访问永远无法实现的内部平衡CPU工作负载(并且记录中的二进制数据也可以)。除非您需要直接从服务器硬盘访问真实文件,否则数据库可以通过允许PHP将单个记录作为文件数据通过Web返回(即使用header()函数)来模拟许多文件。再说一次,我假设这个PHP作为服务器上的Web界面运行。
总的来说,我正在阅读的内容表明,除了文件系统访问之外,其他地方可能效率低下。文件内容是如何生成的?操作系统如何处理文件访问?是否涉及压缩或加密?这些图像或文本数据?操作系统是写入一个硬盘驱动器,软件RAID阵列还是其他一些布局?这些是我能想到的一些问题,只是瞥了一眼你的问题。希望我的回答有所帮助。欢呼声。
答案 1 :(得分:6)
我假设您不能遵循SomeDude关于使用数据库的非常好的建议,并且您已经执行了可以执行的硬件调整(例如,增加缓存,增加RAM以避免交换抖动,购买SSD驱动器)
我尝试将文件生成卸载到其他进程。
你可以,例如安装Redis并将文件内容存储到密钥库中,这非常快。然后,一个不同的并行进程可以从密钥库中提取数据,删除它,并写入磁盘文件。
这将从主PHP进程中删除所有磁盘I / O,并允许您监视积压(仍有多少密钥对未刷新:理想情况下为零)并专注于内容生成的瓶颈。你可能需要一些额外的RAM。
另一方面,这与写入RAM磁盘没有太大区别。您也可以将数据输出到RAM磁盘,它甚至可能更快:
# As root
mkdir /mnt/ramdisk
mount -t tmpfs -o size=512m tmpfs /mnt/ramdisk
mkdir /mnt/ramdisk/temp
mkdir /mnt/ramdisk/ready
# Change ownership and permissions as appropriate
并在PHP中:
$fp = fopen("/mnt/ramdisk/temp/{$file}", "w");
fwrite($fp, $data);
fclose($fp);
rename("/mnt/ramdisk/temp/{$file}", "/mnt/ramdisk/ready/{$file}");
然后有一个不同的进程(crontab?或者连续运行守护进程?)从" ready"移动文件。 RAM磁盘到磁盘的目录,然后删除RAM就绪文件。
创建文件所需的时间取决于目录中的文件数,其中各种依赖函数本身依赖于文件系统。 ext4,ext3,zfs,btrfs等将表现出不同的行为。具体而言,如果文件数量超过某个数量,您可能会遇到明显的减速。
因此,您可能希望尝试在一个目录中创建大量示例文件,并查看此时间随着数字的增长而增长的时间。请记住,访问不同目录会有性能损失,因此不建议立即使用大量子目录。
<?php
$payload = str_repeat("Squeamish ossifrage. \n", 253);
$time = microtime(true);
for ($i = 0; $i < 10000; $i++) {
$fp = fopen("file-{$i}.txt", "w");
fwrite($fp, $payload);
fclose($fp);
}
$time = microtime(true) - $time;
for ($i = 0; $i < 10000; $i++) {
unlink("file-{$i}.txt");
}
print "Elapsed time: {$time} s\n";
在我的系统上创建10000个文件需要0.42秒,但创建100000个文件(10x)需要5.9秒,而不是4.2。另一方面,在8个不同的目录中创建八分之一的文件(我找到的最佳折衷方案)需要6.1秒,所以它不值得。
但是假设创建300000个文件需要25秒而不是17.7;将这些文件分成十个目录可能需要22秒,并使目录拆分值得。
TL; DR虽然您的里程可能会有所不同,但在我的系统上运行并不好。如果要完成的操作是冗长(这里它们不是)并且与主进程有不同的约束,那么将它们分别卸载到不同的线程可能是有利的,前提是你不要产生太多线程。
您需要安装pcntl functions。
$payload = str_repeat("Squeamish ossifrage. \n", 253);
$time = microtime(true);
for ($i = 0; $i < 100000; $i++) {
$pid = pcntl_fork();
switch ($pid) {
case 0:
// Parallel execution.
$fp = fopen("file-{$i}.txt", "w");
fwrite($fp, $payload);
fclose($fp);
exit();
case -1:
echo 'Could not fork Process.';
exit();
default:
break;
}
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";
(花哨的名字r strategy取自生物学)。
在这个例子中,与每个孩子需要做的事情相比,产卵时间是灾难性的。因此,整体处理时间猛增。对于更复杂的孩子来说,事情会变得更好,但你必须小心,不要将剧本变成叉炸弹。
如果可能的话,一种可能性是将要创建的文件分成例如每个10%的块。然后,每个孩子将使用chdir()更改其工作目录,并在其他目录中创建其文件。这将否定在不同子目录中写入文件的惩罚(每个子项写入其当前目录),同时从写入较少的文件中受益。在这种情况下,在孩子中使用非常轻量级和I / O绑定的操作,策略也是不值得的(我的执行时间加倍)。
TL; DR这个更复杂,但在我的系统上运行良好...您的里程可能会有所不同。 虽然r策略涉及很多的即发即弃线程,但K策略需要一个有限的(可能是一个)孩子,这个孩子是经过精心培育的。在这里,我们将所有文件的创建卸载到一个并行线程,并通过套接字与它通信。
$payload = str_repeat("Squeamish ossifrage. \n", 253);
$sockets = array();
$domain = (strtoupper(substr(PHP_OS, 0, 3)) == 'WIN' ? AF_INET : AF_UNIX);
if (socket_create_pair($domain, SOCK_STREAM, 0, $sockets) === false) {
echo "socket_create_pair failed. Reason: ".socket_strerror(socket_last_error());
}
$pid = pcntl_fork();
if ($pid == -1) {
echo 'Could not fork Process.';
} elseif ($pid) {
/*parent*/
socket_close($sockets[0]);
} else {
/*child*/
socket_close($sockets[1]);
for (;;) {
$cmd = trim(socket_read($sockets[0], 5, PHP_BINARY_READ));
if (false === $cmd) {
die("ERROR\n");
}
if ('QUIT' === $cmd) {
socket_write($sockets[0], "OK", 2);
socket_close($sockets[0]);
exit(0);
}
if ('FILE' === $cmd) {
$file = trim(socket_read($sockets[0], 20, PHP_BINARY_READ));
$len = trim(socket_read($sockets[0], 8, PHP_BINARY_READ));
$data = socket_read($sockets[0], $len, PHP_BINARY_READ);
$fp = fopen($file, "w");
fwrite($fp, $data);
fclose($fp);
continue;
}
die("UNKNOWN COMMAND: {$cmd}");
}
}
$time = microtime(true);
for ($i = 0; $i < 100000; $i++) {
socket_write($sockets[1], sprintf("FILE %20.20s%08.08s", "file-{$i}.txt", strlen($payload)));
socket_write($sockets[1], $payload, strlen($payload));
//$fp = fopen("file-{$i}.txt", "w");
//fwrite($fp, $payload);
//fclose($fp);
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";
socket_write($sockets[1], "QUIT\n", 5);
$ok = socket_read($sockets[1], 2, PHP_BINARY_READ);
socket_close($sockets[1]);
这对系统配置非常依赖。例如在单处理器,单核,非线程CPU上,这是疯狂的 - 你至少会使总运行时间翻倍,但更有可能它将从3到10倍慢< / em>的
所以这绝对是不在旧系统上运行的东西。
在现代多线程CPU上,假设主内容创建循环受CPU限制,您可能会遇到相反的情况 - 脚本可能会快十倍。
在我的系统上,&#34;分叉&#34;上面的解决方案运行速度比快三倍。我期待更多,但你有。
当然,性能是否值得增加复杂性和维护,仍有待评估。
在上面进行实验时,我得出的结论是,Linux中合理配置和高性能的计算机上的文件创建速度很快,所以不仅难以挤出更多的性能,但如果您遇到缓慢,则很可能与 文件无关。尝试详细说明如何创建该内容。
答案 2 :(得分:1)
主要想法是减少文件数量。
例如:可以在100个文件中添加1,000个文件,每个文件包含10个文件 - 并通过爆炸进行解析,写入速度提高5倍,读取+解析速度提高14倍
使用file_put_contents和fwrite优化后,速度不会超过1.x.此解决方案可用于读/写。其他解决方案可能是mysql或其他db。
在我的计算机上创建带有小字符串的30k文件需要96.38秒并在一个文件中附加30k倍相同的字符串需要0.075秒
我可以为您提供一个不寻常的解决方案,当您可以使用较少的file_put_contents函数时。请注意,我会向您展示一个简单的代码,以了解它是如何工作的。
$start = microtime(true);
$str = "Aaaaaaaaaaaaaaaaaaaaaaaaa";
if( !file_exists("test/") ) mkdir("test/");
foreach( range(1,1000) as $i ) {
file_put_contents("test/".$i.".txt",$str);
}
$end = microtime(true);
echo "elapsed_file_put_contents_1: ".substr(($end - $start),0,5)." sec\n";
$start = microtime(true);
$out = '';
foreach( range(1,1000) as $i ) {
$out .= $str;
}
file_put_contents("out.txt",$out);
$end = microtime(true);
echo "elapsed_file_put_contents_2: ".substr(($end - $start),0,5)." sec\n";
这是一个包含1000个文件和已用时间的完整示例
with 1000 files
writing file_put_contens: elapsed: 194.4 sec
writing file_put_contens APPNED :elapsed: 37.83 sec ( 5x faster )
............
reading file_put_contens elapsed: 2.401 sec
reading append elapsed: 0.170 sec ( 14x faster )
$start = microtime(true);
$allow_argvs = array("gen_all","gen_few","read_all","read_few");
$arg = isset($argv[1]) ? $argv[1] : die("php ".$argv[0]." gen_all ( ".implode(", ",$allow_argvs).")");
if( !in_array($arg,$allow_argvs) ) {
die("php ".$argv[0]." gen_all ( ".implode(", ",$allow_argvs).")");
}
if( $arg=='gen_all' ) {
$dir_campain_all_files = "campain_all_files/";
if( !file_exists($dir_campain_all_files) ) die("\nFolder ".$dir_campain_all_files." not exist!\n");
$exists_campaings = false;
foreach( range(1,10) as $i ) { if( file_exists($dir_campain_all_files.$i) ) { $exists_campaings = true; } }
if( $exists_campaings ) {
die("\nDelete manualy all subfolders from ".$dir_campain_all_files." !\n");
}
build_campain_dirs($dir_campain_all_files);
// foreach in campaigns
foreach( range(1,10) as $i ) {
$campain_dir = $dir_campain_all_files.$i."/";
$nr_of_files = 1000;
foreach( range(1,$nr_of_files) as $f ) {
$file_name = $f.".txt";
$data_file = generateRandomString(4*1024);
$dir_file_name = $campain_dir.$file_name;
file_put_contents($dir_file_name,$data_file);
}
echo "campaing #".$i." done! ( ".$nr_of_files." files writen ).\n";
}
}
if( $arg=='gen_few' ) {
$delim_file = "###FILE###";
$delim_contents = "@@@FILE@@@";
$dir_campain = "campain_few_files/";
if( !file_exists($dir_campain) ) die("\nFolder ".$dir_campain_all_files." not exist!\n");
$exists_campaings = false;
foreach( range(1,10) as $i ) { if( file_exists($dir_campain.$i) ) { $exists_campaings = true; } }
if( $exists_campaings ) {
die("\nDelete manualy all files from ".$dir_campain." !\n");
}
$amount = 100; // nr_of_files_to_append
$out = ''; // here will be appended
build_campain_dirs($dir_campain);
// foreach in campaigns
foreach( range(1,10) as $i ) {
$campain_dir = $dir_campain.$i."/";
$nr_of_files = 1000;
$cnt_few=1;
foreach( range(1,$nr_of_files) as $f ) {
$file_name = $f.".txt";
$data_file = generateRandomString(4*1024);
$my_file_and_data = $file_name.$delim_file.$data_file;
$out .= $my_file_and_data.$delim_contents;
// append in a new file
if( $f%$amount==0 ) {
$dir_file_name = $campain_dir.$cnt_few.".txt";
file_put_contents($dir_file_name,$out,FILE_APPEND);
$out = '';
$cnt_few++;
}
}
// append remaning files
if( !empty($out) ) {
$dir_file_name = $campain_dir.$cnt_few.".txt";
file_put_contents($dir_file_name,$out,FILE_APPEND);
$out = '';
}
echo "campaing #".$i." done! ( ".$nr_of_files." files writen ).\n";
}
}
if( $arg=='read_all' ) {
$dir_campain = "campain_all_files/";
$exists_campaings = false;
foreach( range(1,10) as $i ) {
if( file_exists($dir_campain.$i) ) {
$exists_campaings = true;
}
}
foreach( range(1,10) as $i ) {
$campain_dir = $dir_campain.$i."/";
$files = getFiles($campain_dir);
foreach( $files as $file ) {
$data = file_get_contents($file);
$substr = substr($data, 100, 5); // read 5 chars after char100
}
echo "campaing #".$i." done! ( ".count($files)." files readed ).\n";
}
}
if( $arg=='read_few' ) {
$dir_campain = "campain_few_files/";
$exists_campaings = false;
foreach( range(1,10) as $i ) {
if( file_exists($dir_campain.$i) ) {
$exists_campaings = true;
}
}
foreach( range(1,10) as $i ) {
$campain_dir = $dir_campain.$i."/";
$files = getFiles($campain_dir);
foreach( $files as $file ) {
$data_temp = file_get_contents($file);
$explode = explode("@@@FILE@@@",$data_temp);
//@mkdir("test/".$i);
foreach( $explode as $exp ) {
$temp_exp = explode("###FILE###",$exp);
if( count($temp_exp)==2 ) {
$file_name = $temp_exp[0];
$file_data = $temp_exp[1];
$substr = substr($file_data, 100, 5); // read 5 chars after char100
//file_put_contents("test/".$i."/".$file_name,$file_data); // test if files are recreated correctly
}
}
//echo $file." has ".strlen($data_temp)." chars!\n";
}
echo "campaing #".$i." done! ( ".count($files)." files readed ).\n";
}
}
$end = microtime(true);
echo "elapsed: ".substr(($end - $start),0,5)." sec\n";
echo "\n\nALL DONE!\n\n";
/*************** FUNCTIONS ******************/
function generateRandomString($length = 10) {
$characters = '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
$charactersLength = strlen($characters);
$randomString = '';
for ($i = 0; $i < $length; $i++) {
$randomString .= $characters[rand(0, $charactersLength - 1)];
}
return $randomString;
}
function build_campain_dirs($dir_campain) {
foreach( range(1,10) as $i ) {
$dir = $dir_campain.$i;
if( !file_exists($dir) ) {
mkdir($dir);
}
}
}
function getFiles($dir) {
$arr = array();
if ($handle = opendir($dir)) {
while (false !== ($file = readdir($handle))) {
if ($file != "." && $file != "..") {
$arr[] = $dir.$file;
}
}
closedir($handle);
}
return $arr;
}