从php,javascript中的url(网页)解析特定内容

时间:2011-06-07 20:47:19

标签: php javascript html

我使用了一些RSS提要。他们中的一些人没有对他们的文章的描述。

为了不显示这些文章的标题和描述,我想举例说明实际文章的前两段。

我尝试了striposfile_get_contents,但我遇到了问题。在大多数页面中它工作正常,但在其他页面中,它会抓取第一个<p>标记(例如可以是侧边栏中的段落),并且与RSS提要中提到的文章无关。

有关如何严格使用PHP或JavaScript从URL中获取主要内容的任何想法?

提前致谢。

2 个答案:

答案 0 :(得分:2)

我想到的第一个想法是从p中删除标签,然后只有段落中实际文本的长度大于某个阈值时才使用该部分。也许检查一定数量的[。?!]。如果没有该号码,请转到下一个。

答案 1 :(得分:0)

您可能还想尝试抓取,这样可以“抓取”页面并解析其内容。 http://simplehtmldom.sourceforge.net/具有类似jQuery的语法,应该可以让您快速获得所需的内容。

刮痧有自己的警告,因为有些网站可能不会对您的数据收集感到满意,并可能阻止您的尝试。您可能希望研究这种方法的优点和缺点,但它确实很强大。

此处还有关于抓取RSS源的信息:http://blog.5ubliminal.com/posts/rsscraping-scraping-rss-with-php-dom-xpath/,我还没有尝试过。

编辑Wrikken's link比我好。那里有一些不错的选择。