仅抓取文章/内容

时间:2012-08-06 21:07:57

标签: web-scraping web-crawler

我希望抓取工具能够识别(例如新闻网站)上的哪些页面是实际内容(即文章),而不是关于,联系人,类别列表等。

到目前为止,我没有找到任何优雅的方法,因为内容的标准似乎因网站而异(没有常见的标签/布局/协议等)。任何人都可以将我引导到图书馆或方法,以确定某个网站是否是一段内容?在抓取候选页面后,完全可以接受这种区别。

除非已存在任何内容,否则我也非常感谢该领域现有/正在进行的研究的任何起点。

1 个答案:

答案 0 :(得分:0)

您可以先查看Boilerpipe framework。他们的项目页面提供在线提取演示。如果提取结果对您的情况不是很好,则需要扩展其算法。