我使用了一些RSS提要。他们中的一些人没有对他们的文章的描述。
为了不显示这些文章的标题和描述,我想举例说明实际文章的前两段。
我尝试了stripos
,file_get_contents
,但我遇到了问题。在大多数页面中它工作正常,但在其他页面中,它会抓取第一个<p>
标记(例如可以是侧边栏中的段落),并且与RSS提要中提到的文章无关。
有关如何严格使用PHP或JavaScript从URL中获取主要内容的任何想法?
提前致谢。
答案 0 :(得分:2)
我想到的第一个想法是从p中删除标签,然后只有段落中实际文本的长度大于某个阈值时才使用该部分。也许检查一定数量的[。?!]。如果没有该号码,请转到下一个。
答案 1 :(得分:0)
您可能还想尝试抓取,这样可以“抓取”页面并解析其内容。 http://simplehtmldom.sourceforge.net/具有类似jQuery的语法,应该可以让您快速获得所需的内容。
刮痧有自己的警告,因为有些网站可能不会对您的数据收集感到满意,并可能阻止您的尝试。您可能希望研究这种方法的优点和缺点,但它确实很强大。
此处还有关于抓取RSS源的信息:http://blog.5ubliminal.com/posts/rsscraping-scraping-rss-with-php-dom-xpath/,我还没有尝试过。
编辑:Wrikken's link比我好。那里有一些不错的选择。