开展一个小爱好项目,抓一些网页,主要是用户发布的博客和新闻网站。
我们有一个小脚本,只需要一个URL列表并抓取所有内容的页面,基本上是使用Apache HTTP组件的hello world版本......
无论如何,我们想对这些页面上显示的文本进行一些分析。但是,任何URL都可以以任何格式出现,我们需要一些合理可靠的方法来识别网页上的主要内容(这里有一些错误,没关系)。
是否有人知道Java中的任何开源框架或小脚本可用于识别网页中的主要文本内容?
有一些方法可以想到,只需查找具有最明显文本的最大DOM元素,或者比较用于描述某些文本(即元数据)与实际文本数据的字符数。我希望有人可能已经发布了一些用Java做的事情,但如果没有,因为我将要做到这一点的麻烦,是否有需要这样的实用程序?
干杯!
答案 0 :(得分:3)
我认为boilerpipe
对您有用。
看看这里:http://code.google.com/p/boilerpipe/
以下是教程: http://code.google.com/p/boilerpipe/wiki/QuickStart
对我来说似乎很简单:
URL url = new URL("http://www.example.com/some-location/index.html");
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you
String text = ArticleExtractor.INSTANCE.getText(url);