PHP XML Expat解析器:如何只读取部分XML文档?

时间:2013-03-15 02:13:50

标签: php xml expat-parser

我有一个XML文档,其结构如下:

<posts>
<user id="1222334">
  <post>
    <message>hello</message>
    <client>client</client>
    <time>time</time>
  </post>
  <post>
    <message>hello client how can I help?</message>
    <client>operator</client>
    <time>time</time>
  </post>
</user>
<user id="2333343">
  <post>
    <message>good morning</message>
    <client>client</client>
    <time>time</time>
  </post>
  <post>
    <message>good morning how can I help?</message>
    <client>operator</client>
    <time>time</time>
  </post>
</user>
</posts>

我能够创建解析器并打印出整个文档,但问题是我只想打印(用户)节点和具有特定属性(id)的子节点。

我的PHP代码是:

if( !empty($_GET['id']) ){
    $id = $_GET['id'];
    $parser=xml_parser_create();
    function start($parser,$element_name,$element_attrs)
      {
    switch($element_name)
        {
        case "USER": echo "-- User --<br>";
        break;
        case "CLIENT": echo "Name: ";
        break;
        case "MESSAGE": echo "Message: ";
        break;
        case "TIME": echo "Time: ";
        break;
        case "POST": echo "--Post<br> ";
        }
  }

function stop($parser,$element_name){  echo "<br>";  }
function char($parser,$data){ echo $data; }
xml_set_element_handler($parser,"start","stop");
xml_set_character_data_handler($parser,"char");

$file = "test.xml";
$fp = fopen($file, "r");
while ($data=fread($fp, filesize($file)))
  {
  xml_parse($parser,$data,feof($fp)) or 
  die (sprintf("XML Error: %s at line %d", 
  xml_error_string(xml_get_error_code($parser)),
  xml_get_current_line_number($parser)));
  }
xml_parser_free($parser);
}

start()函数中使用它可以选择正确的节点,但它对阅读过程没有任何影响:

    if(($element_name == "USER") && $element_attrs["ID"] && ($element_attrs["ID"] == "$id"))

任何帮助将不胜感激

更新 XMLReader可以工作,但在使用if语句时它会停止工作:

foreach ($filteredUsers as $user) {
echo "<table border='1'>";
foreach ($user->getChildElements('post') as $index => $post) {

    if( $post->getChildElements('client') == "operator" ){
    printf("<tr><td class='blue'>%s</td><td class='grey'>%s</td></tr>", $post->getChildElements('message'), $post->getChildElements('time'));
    }else{
    printf("<tr><td class='green'>%s</td><td class='grey'>%s</td></tr>", $post->getChildElements('message'), $post->getChildElements('time'));

    }
}
echo "</table>";
}

2 个答案:

答案 0 :(得分:8)

正如之前评论中所建议的那样,您也可以使用XMLReaderDocs

  

XMLReader扩展是一个XML Pull解析器。读者在文档流中作为光标前进,并在途中停在每个节点上。

这是一个可以打开文件的类(名称相同:XMLReader)。默认情况下,您使用next()移动到下一个节点。然后,您将检查当前位置是否在元素处,然后如果元素具有您正在查找的名称,然后您可以处理它,例如通过读取元素XMLReader::readOuterXml()Docs的外部XML。

与Expat解析器中的回调相比,这有点麻烦。为了通过XMLReader获得更大的灵活性,我通常会创建自己iterators that are able to work on the XMLReader object and provide the steps I need

它们允许直接用foreach迭代具体元素。这是一个例子:

require('xmlreader-iterators.php'); // https://gist.github.com/hakre/5147685

$xmlFile = '../data/posts.xml';

$ids = array(3, 8);

$reader = new XMLReader();
$reader->open($xmlFile);

/* @var $users XMLReaderNode[] - iterate over all <user> elements */
$users = new XMLElementIterator($reader, 'user');

/* @var $filteredUsers XMLReaderNode[] - iterate over elements with id="3" or id="8" */
$filteredUsers = new XMLAttributeFilter($users, 'id', $ids);

foreach ($filteredUsers as $user) {
    printf("---------------\nUser with ID %d:\n", $user->getAttribute('id'));
    echo $user->readOuterXml(), "\n";
}

我创建了一个XML文件,其中包含一些更多的帖子,例如您的问题,在id属性中从一个及以上开始编号:

$xmlFile = '../data/posts.xml';

然后我创建了一个数组,其中包含两个对用户感兴趣的ID值:

$ids = array(3, 8);

稍后将在过滤条件中使用它。然后创建XMLReader并由它打开XML文件:

$reader = new XMLReader();
$reader->open($xmlFile);

下一步为该阅读器的所有<user>元素创建一个迭代器:

$users = new XMLElementIterator($reader, 'user');

然后针对之前存储在数组中的id属性值进行过滤:

$filteredUsers = new XMLAttributeFilter($users, 'id', $ids);

其余部分正在迭代foreach,因为所有条件都已制定:

foreach ($filteredUsers as $user) {
    printf("---------------\nUser with ID %d:\n", $user->getAttribute('id'));
    echo $user->readOuterXml(), "\n";
}

将返回ID为3和8的用户的XML:

---------------
User with ID 3:
<user id="3">
        <post>
            <message>message</message>
            <client>client</client>
            <time>time</time>
        </post>
    </user>
---------------
User with ID 8:
<user id="8">
        <post>
            <message>message 8.1</message>
            <client>client</client>
            <time>time</time>
        </post>
        <post>
            <message>message 8.2</message>
            <client>client</client>
            <time>time</time>
        </post>
        <post>
            <message>message 8.3</message>
            <client>client</client>
            <time>time</time>
        </post>
    </user>

如果您希望轻松阅读XMLReaderNode元素内的值,the XMLReader iterators中的<user>也会提供SimpleXMLElementDocs

以下示例显示如何获取<post>元素中<user>元素的数量:

foreach ($filteredUsers as $user) {
    printf("---------------\nUser with ID %d:\n", $user->getAttribute('id'));
    echo $user->readOuterXml(), "\n";
    echo "Number of posts: ", $user->asSimpleXML()->post->count(), "\n";
}

然后,这将显示用户ID 3的Number of posts: 1和用户ID 8的Number of posts: 3

但是,如果外部XML很大,您不希望这样做,并且您希望继续在该元素内迭代:

// rewind
$reader->open($xmlFile);

foreach ($filteredUsers as $user) {
    printf("---------------\nUser with ID %d:\n", $user->getAttribute('id'));
    foreach ($user->getChildElements('post') as $index => $post) {
        printf(" * #%d: %s\n", ++$index, $post->getChildElements('message'));
    }
    echo "Number of posts: ", $index, "\n";
}

产生以下输出:

---------------
User with ID 3:
 * #1: message 3
Number of posts: 1
---------------
User with ID 8:
 * #1: message 8.1
 * #2: message 8.2
 * #3: message 8.3
Number of posts: 3

此示例显示:根据嵌套子级的大小,您可以使用getChildElements()中可用的迭代器进一步遍历,或者也可以使用常见的XML解析器,如SimpleXML甚至{{ 1}}关于XML的一个子集。

答案 1 :(得分:0)

您可以使用PHP SimpleDomHTML(用PHP5编写的HTML DOM解析器,让您以非常简单的方式操作HTML!)您可以像使用jQuery一样查询数据。它支持HTML,因此确保它对XML文档的支持很好。

您可以在此处下载和查看文档:{​​{3}}