如何从RSS提要中的描述字段中捕获某些数据?

时间:2012-02-08 17:35:09

标签: php html regex rss

我正在阅读的RSS源。我需要从此Feed中的字段中检索某些数据。

这是示例Feed数据:

<content:encoded><![CDATA[
    <b>When:</b><br />
    Weekly Event - Every Thursday: 1:30 PM to 3:30 PM (CT)<br /><br />
      <b>Where:</b><br />
      100 West Street<BR>2nd floor<BR>Gainesville<BR>
      <br>.....

如何分别提取When:和Where:的数据?我试图使用正则表达式,但我不确定我是否正确访问数据或我的正则表达式是否错误。我没有开始使用正则表达式。

这是我的代码:

    foreach ($x->channel->item as $event) {
    $eventCounter++;
    $rowColor = ($eventCounter % 2 == 0) ? '#FFFFFF' : '#F1F1F1';
    $content = $event->children('http://purl.org/rss/1.0/modules/content/');
    $contents = $content->encoded;
    echo '<tr style="background-color:' . $rowColor . '">';
    echo '<td>';
    //echo "<a id=buttonRed href='$event->link' title='$event->title' target='_blank'>" . $event->title . "</a>";
    echo "" . $event->title . "";
    echo '</td>';
    echo '<td>';
    $re = '%when\:\s*</b>\s*(.|\s)<br \/><br \/>$/i';
    if (preg_match($re, $contents, $matches)) {
        $date = $matches;
    }
    echo $date;
    echo '</td>';
    echo '<td>';
    $re = '/^When\:<\/b>()$/';
    if (preg_match($re, $contents, $matches)) {
        $location = $matches;
    }
    echo $location;
    echo '</td>';
    echo '<td>';
    echo "<a id=buttonRed href='$event->link' title='$event->title' target='_blank'>Click Here To Register</a>";
    echo '</td>';
    echo '</tr>';
}

两个$ res只是我尝试使用不同的正则表达式获取数据。让我知道我哪里错了。感谢

3 个答案:

答案 0 :(得分:1)

我遇到了这样的问题,最后我使用了YQL。仔细看看那里给出的页面抓取代码,尤其是select命令。然后转到console并输入您自己的select语句,为您想要的节点指定Feed网址和xpath。选择JSON格式。然后转到页面底部,获取REST查询URL,并在jquery jsonp request中使用它。 MAGIC!

答案 1 :(得分:1)

以下内容应该让你到达那里。 (我从头开始写这篇文章并没有完全遵循你的XML语法。但你明白了。)

<?php
$str = "<root><b>When:</b> whenwhen <b>Where:</b> wherewhere</root>";

$doc = new DOMDocument();
$doc->loadXML($str);

$when = $where = "";
$target = null;

foreach ($doc->documentElement->childNodes as $node) {
    if ($node->tagName == "b") {
        if (++$i == 1) {
            $target = &$when;
        } else {
            $target = &$where;
        }
    }

    if ($target !== null && $node->nodeType === XML_TEXT_NODE) {
        $target .= $node->nodeValue;
    }
}

var_dump($when, $where);

答案 2 :(得分:-2)

请不要通过正则表达式从XML文档中提取数据。

答案很长,例如在这里:https://stackoverflow.com/a/335446/313145

简短的回答是:使用正则表达式并不容易,并且会经常中断。