应用错误收集

时间：2011-06-07 20:47:19

标签： php javascript html

我使用了一些RSS提要。他们中的一些人没有对他们的文章的描述。

为了不显示这些文章的标题和描述，我想举例说明实际文章的前两段。

我尝试了stripos，file_get_contents，但我遇到了问题。在大多数页面中它工作正常，但在其他页面中，它会抓取第一个<p>标记（例如可以是侧边栏中的段落），并且与RSS提要中提到的文章无关。

有关如何严格使用PHP或JavaScript从URL中获取主要内容的任何想法？

提前致谢。

答案 0 :(得分：2)

我想到的第一个想法是从p中删除标签，然后只有段落中实际文本的长度大于某个阈值时才使用该部分。也许检查一定数量的[。？！]。如果没有该号码，请转到下一个。

答案 1 :(得分：0)

您可能还想尝试抓取，这样可以“抓取”页面并解析其内容。 http://simplehtmldom.sourceforge.net/具有类似jQuery的语法，应该可以让您快速获得所需的内容。

刮痧有自己的警告，因为有些网站可能不会对您的数据收集感到满意，并可能阻止您的尝试。您可能希望研究这种方法的优点和缺点，但它确实很强大。

编辑：Wrikken's link比我好。那里有一些不错的选择。