如何使用PHP从第三方网站解析格式错误的RSS源?

时间:2016-10-14 14:26:24

标签: php xml xml-parsing rss

我试图解析某些媒体的RSS源。我的脚本适用于大多数人。问题是我需要将所有这些都集中在一起,尽管它们的格式不正确。

我无法获得这两个Feed的说明。我怎么能继续前进?

这是我的剧本:

<?php
function RSS_items ($url) {
    $i = 0;
    $doc = new DOMDocument();
    $doc->load($url);
    $channels = $doc->getElementsByTagName('channel');
    foreach($channels as $channel) {
        $items = $channel->getElementsByTagName('item');
        foreach($items as $item) {
            $i++;
            $y[$i]['title'] = $item->getElementsByTagName('title')->item(0)->firstChild->textContent;
            $y[$i]['link'] = $item->getElementsByTagName('link')->item(0)->firstChild->textContent;
            $y[$i]['updated'] = $item->getElementsByTagName('pubDate')->item(0)->firstChild->textContent;
            $y[$i]['description'] = $item->getElementsByTagName('description')->item(0)->firstChild->textContent;
        }
    }
    echo '<pre>';
    print_r ($y);
    echo '</pre>';
}
// the two malformed feeds
RSS_items ('http://www.lefigaro.fr/rss/figaro_actualites-a-la-une.xml');
RSS_items ('https://francais.rt.com/rss');
?>

1 个答案:

答案 0 :(得分:1)

您的代码问题在于使用选择元素的第一个子元素的firstChild属性。但是在目标XML中,description标记没有您想要首先选择的任何子项。从代码中删除它。结果应该是这样的

$item->getElementsByTagName('description')->item(0)->textContent;