应用错误收集

仅抓取文章/内容

时间：2012-08-06 21:07:57

标签： web-scraping web-crawler

我希望抓取工具能够识别（例如新闻网站）上的哪些页面是实际内容（即文章），而不是关于，联系人，类别列表等。

到目前为止，我没有找到任何优雅的方法，因为内容的标准似乎因网站而异（没有常见的标签/布局/协议等）。任何人都可以将我引导到图书馆或方法，以确定某个网站是否是一段内容？在抓取候选页面后，完全可以接受这种区别。

除非已存在任何内容，否则我也非常感谢该领域现有/正在进行的研究的任何起点。

1 个答案:

答案 0 :(得分：0)

您可以先查看Boilerpipe framework。他们的项目页面提供在线提取演示。如果提取结果对您的情况不是很好，则需要扩展其算法。