Web爬网 - 使用Java识别网页上的主要内容

时间:2011-10-22 06:01:41

标签: java html dom web-crawler data-mining

开展一个小爱好项目,抓一些网页,主要是用户发布的博客和新闻网站。

我们有一个小脚本,只需要一个URL列表并抓取所有内容的页面,基本上是使用Apache HTTP组件的hello world版本......

无论如何,我们想对这些页面上显示的文本进行一些分析。但是,任何URL都可以以任何格式出现,我们需要一些合理可靠的方法来识别网页上的主要内容(这里有一些错误,没关系)。

是否有人知道Java中的任何开源框架或小脚本可用于识别网页中的主要文本内容?

有一些方法可以想到,只需查找具有最明显文本的最大DOM元素,或者比较用于描述某些文本(即元数据)与实际文本数据的字符数。我希望有人可能已经发布了一些用Java做的事情,但如果没有,因为我将要做到这一点的麻烦,是否有需要这样的实用程序?

干杯!

1 个答案:

答案 0 :(得分:3)

我认为boilerpipe对您有用。 看看这里:http://code.google.com/p/boilerpipe/

以下是教程: http://code.google.com/p/boilerpipe/wiki/QuickStart

对我来说似乎很简单:

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);