XMLReader可以处理最大文件大小吗?
我正在尝试处理大约3GB的XML Feed。当然没有PHP错误,因为脚本运行正常并且在运行后成功加载到数据库。
使用较小的测试源(1GB及以下),该脚本也可正常运行。但是,在处理较大的订阅源时,脚本会在大约1GB后停止读取XML文件,并继续运行脚本的其余部分。
有没有人遇到过类似的问题?如果是这样,你是如何解决它的?
提前致谢。
答案 0 :(得分:2)
我最近遇到了同样的问题,我想分享一下我的经验。
似乎问题在于编译PHP的方式,无论是编译时是支持64位文件大小/偏移还是只支持32位。
使用32位,您只能处理4GB的数据。你可以在这里找到一些令人困惑但很好的解释:http://blog.mayflower.de/archives/131-Handling-large-files-without-PHP.html
我必须使用Perl实用程序xml_split
拆分文件,您可以在此处找到它:http://search.cpan.org/~mirod/XML-Twig/tools/xml_split/xml_split
我用它将我的巨大XML文件拆分成可管理的块。该工具的好处是它可以在整个元素上分割XML文件。不幸的是它不是很快。
我只需要这样做一次,它符合我的需要,但我不建议重复使用它。拆分后,我在大小约1GB
的较小文件上使用了XMLReader。
答案 1 :(得分:1)
拆分文件肯定有帮助。其他要尝试的事情......
根据您的操作系统,您可以分配的RAM块可能还有2GB的限制。如果您在32位操作系统上运行,则非常可能。
答案 2 :(得分:1)
应该注意,PHP通常具有最大文件大小。 PHP不允许使用无符号整数或长整数,这意味着对于整数,您的上限为2 ^ 31(对于64位系统为2 ^ 63)。这很重要,因为PHP使用整数作为文件指针(在您阅读时在文件中的位置),这意味着它无法处理大于2 ^ 31字节的文件。
但是,这应该超过1千兆字节。我遇到了两千兆字节的问题(正如预期的那样,因为2 ^ 31大约是20亿)。
答案 3 :(得分:0)
我在解析大型文档时遇到了类似的问题。我最后做的是使用文件系统函数将feed分成更小的块,然后解析那些较小的块...所以如果你有一堆正在解析的<record>
个标签,请用字符串函数解析它们流,当你在缓冲区中得到一个完整的记录,用xml函数解析它...它很糟糕,但它工作得很好(并且非常有效,因为你在任何一个内存中只有最多1条记录时间)...
答案 4 :(得分:0)
是否有任何错误?
libxml_use_internal_errors(true);
libxml_clear_errors();
// your parser stuff here....
$r = new XMLReader(...);
// ....
foreach( libxml_get_errors() as $err ) {
printf(". %d %s\n", $err->code, $err->message);
}
解析器过早停止?
答案 5 :(得分:0)
使用WindowsXP,NTFS作为文件系统和php 5.3.2,这个测试脚本没有问题
<?php
define('SOURCEPATH', 'd:/test.xml');
if ( 0 ) {
build();
}
else {
echo 'filesize: ', number_format(filesize(SOURCEPATH)), "\n";
timing('read');
}
function timing($fn) {
$start = new DateTime();
echo 'start: ', $start->format('Y-m-d H:i:s'), "\n";
$fn();
$end = new DateTime();
echo 'end: ', $start->format('Y-m-d H:i:s'), "\n";
echo 'diff: ', $end->diff($start)->format('%I:%S'), "\n";
}
function read() {
$cnt = 0;
$r = new XMLReader;
$r->open(SOURCEPATH);
while( $r->read() ) {
if ( XMLReader::ELEMENT === $r->nodeType ) {
if ( 0===++$cnt%500000 ) {
echo '.';
}
}
}
echo "\n#elements: ", $cnt, "\n";
}
function build() {
$fp = fopen(SOURCEPATH, 'wb');
$s = '<catalogue>';
//for($i = 0; $i < 500000; $i++) {
for($i = 0; $i < 60000000; $i++) {
$s .= sprintf('<item>%010d</item>', $i);
if ( 0===$i%100000 ) {
fwrite($fp, $s);
$s = '';
echo $i/100000, ' ';
}
}
$s .= '</catalogue>';
fwrite($fp, $s);
flush($fp);
fclose($fp);
}
输出:
filesize: 1,380,000,023
start: 2010-08-07 09:43:31
........................................................................................................................
#elements: 60000001
end: 2010-08-07 09:43:31
diff: 07:31
(你可以看到我搞砸了结束时间的输出,但我不想再运行这个脚本7+分钟; - ))
这是否也适用于您的系统?
作为旁注:相应的C#测试应用程序仅用了41秒而不是7,5分钟。在这种情况下,我的缓慢硬盘可能是/一个限制因素。
filesize: 1.380.000.023
start: 2010-08-07 09:55:24
........................................................................................................................
#elements: 60000001
end: 2010-08-07 09:56:05
diff: 00:41
和来源:
using System;
using System.IO;
using System.Xml;
namespace ConsoleApplication1
{
class SOTest
{
delegate void Foo();
const string sourcepath = @"d:\test.xml";
static void timing(Foo bar)
{
DateTime dtStart = DateTime.Now;
System.Console.WriteLine("start: " + dtStart.ToString("yyyy-MM-dd HH:mm:ss"));
bar();
DateTime dtEnd = DateTime.Now;
System.Console.WriteLine("end: " + dtEnd.ToString("yyyy-MM-dd HH:mm:ss"));
TimeSpan s = dtEnd.Subtract(dtStart);
System.Console.WriteLine("diff: {0:00}:{1:00}", s.Minutes, s.Seconds);
}
static void readTest()
{
XmlTextReader reader = new XmlTextReader(sourcepath);
int cnt = 0;
while (reader.Read())
{
if (XmlNodeType.Element == reader.NodeType)
{
if (0 == ++cnt % 500000)
{
System.Console.Write('.');
}
}
}
System.Console.WriteLine("\n#elements: " + cnt + "\n");
}
static void Main()
{
FileInfo f = new FileInfo(sourcepath);
System.Console.WriteLine("filesize: {0:N0}", f.Length);
timing(readTest);
return;
}
}
}