应用错误收集

时间：2011-03-01 19:19:09

标签： php rss feeds

到目前为止，我看到的最好的例子是http://www.instapaper.com/。他们可以从任何页面获取文本。

在我的情况下，我需要获取文本并生成一个列表，考虑到我将有一个页面包含每个站点的新闻列表。

例如，nytimes.com（仅举例）。我必须获取所有链接并获取文本（如果存在）。此外，我可能需要指定一些URL标准，例如从链接生成订阅源，其中网址包含“/ [year] / [month / [day] / [category] / post-name”）。

我不想要完整的代码，只需要概念和最佳方法。任何想法？

答案 0 :(得分：1)

这很痛苦，但唯一好的解决方案是使用HTML解析器并解析所有href。我建议使用一个允许您轻松选择所有href的库。我听说过这个http://code.google.com/p/phpquery/但从未使用过它。您要做的是加载每个页面，然后选择所有href。

真的没有更简单的方法。如果您将技术更改为java或python，那么您可以利用多线程功能并加快流程。当然，一旦分析，将数据保存在某个数据库中，以便以后可以引用它。

希望这会有所帮助。