您好,我正在尝试刮取给我们的xml Feed,我使用简单的htmldom来抓它但有些内容有cdata,我该如何删除它?
<date>
<weekday>
<![CDATA[ Friday
]]>
</weekday>
</date>
PHP
<?php
<?php
include('simple_html_dom.php');
include ('phpQuery.php');
if (ini_get('allow_url_fopen'))
$xml = file_get_html('http://www.link.com/url.xml'); }
else{ $ch = curl_init('http://www.link.com/url.xml');
curl_setopt ($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$src = curl_exec($ch);
$xml = str_get_html($src, false); }
?>
<?php
foreach($xml->find('weekday') as $e)
echo $e->innertext . '<br>';
?>
我相信默认情况下simplehtmldom会删除cdata,但由于某些原因它无效。
请告诉我您是否需要任何有助于解决此问题的信息
非常感谢你的帮助
答案 0 :(得分:3)
您可以使用另一个能够将cdata转换为字符串(Demo)的xml解析器:
$innerText = '<![CDATA[ Friday
]]>';
$innerText = (string) simplexml_load_string("<x>$innerText</x>"));
基于OP代码的扩展代码示例
# [...]
<?php
foreach($xml->find('weekday') as $e)
{
$innerText = $e->innertext;
$innerText = (string) simplexml_load_string("<x>$innerText</x>");
echo $innerText . '<br>';
}
?>
使用说明:找到包含foreach
的行,然后将原始代码与新代码进行比较(仅更换了相关的foreach
)。
答案 1 :(得分:2)
我同意另一个答案 - 只允许显示CDATA。我推荐simpleXML
$xml = simplexml_load_file('test.xml', 'SimpleXMLElement', LIBXML_NOCDATA);
echo '<pre>', print_r($xml), '</pre>';
LIBXML_NOCDATA非常重要 - 请将其保留在那里。