在simplehtmldom中删除cdata

时间:2011-09-23 19:42:44

标签: php

您好,我正在尝试刮取给我们的xml Feed,我使用简单的htmldom来抓它但有些内容有cdata,我该如何删除它?

<date>
<weekday>
<![CDATA[ Friday
]]> 
</weekday>
</date>

PHP

<?php     
<?php 
include('simple_html_dom.php'); 
include ('phpQuery.php'); 
if (ini_get('allow_url_fopen'))
$xml  = file_get_html('http://www.link.com/url.xml'); }
else{       $ch = curl_init('http://www.link.com/url.xml');
curl_setopt  ($ch, CURLOPT_HEADER, false);        
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);           
$src = curl_exec($ch);           
$xml = str_get_html($src, false);  }   
?>
<?php 
foreach($xml->find('weekday') as $e)
echo $e->innertext  . '<br>';
?>

我相信默认情况下simplehtmldom会删除cdata,但由于某些原因它无效。

请告诉我您是否需要任何有助于解决此问题的信息

非常感谢你的帮助

2 个答案:

答案 0 :(得分:3)

您可以使用另一个能够将cdata转换为字符串(Demo)的xml解析器:

$innerText = '<![CDATA[ Friday
]]>';

$innerText = (string) simplexml_load_string("<x>$innerText</x>"));

基于OP代码的扩展代码示例

# [...]
<?php 
foreach($xml->find('weekday') as $e)
{
    $innerText = $e->innertext;
    $innerText = (string) simplexml_load_string("<x>$innerText</x>");
    echo $innerText . '<br>';
}
?>

使用说明:找到包含foreach的行,然后将原始代码与新代码进行比较(仅更换了相关的foreach)。

答案 1 :(得分:2)

我同意另一个答案 - 只允许显示CDATA。我推荐simpleXML

$xml = simplexml_load_file('test.xml', 'SimpleXMLElement', LIBXML_NOCDATA);
echo '<pre>', print_r($xml), '</pre>';

LIBXML_NOCDATA非常重要 - 请将其保留在那里。