到目前为止,我看到的最好的例子是http://www.instapaper.com/。他们可以从任何页面获取文本。
在我的情况下,我需要获取文本并生成一个列表,考虑到我将有一个页面包含每个站点的新闻列表。
例如,nytimes.com(仅举例)。我必须获取所有链接并获取文本(如果存在)。此外,我可能需要指定一些URL标准,例如从链接生成订阅源,其中网址包含“/ [year] / [month / [day] / [category] / post-name”)。
我不想要完整的代码,只需要概念和最佳方法。任何想法?
答案 0 :(得分:1)
这很痛苦,但唯一好的解决方案是使用HTML解析器并解析所有href。我建议使用一个允许您轻松选择所有href的库。我听说过这个http://code.google.com/p/phpquery/但从未使用过它。您要做的是加载每个页面,然后选择所有href。
真的没有更简单的方法。如果您将技术更改为java或python,那么您可以利用多线程功能并加快流程。当然,一旦分析,将数据保存在某个数据库中,以便以后可以引用它。
希望这会有所帮助。