如何从网页中提取句子

时间:2012-09-21 12:15:15

标签: java html-parsing jsoup

我想从网页中提取句子(不仅仅是一个html剥离的文本)。我想知道流行的HTML解析库(如Jsoup?

)是否支持这些功能

谢谢,

修改

很抱歉,如果帖子不清楚。我需要自然语言句子,所以不一定用点分隔。

谢谢大家。我刚刚找到了这个库http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html,它似乎正是我想要的。

2 个答案:

答案 0 :(得分:0)

JSoup确实为提取操纵 API提供了非常方便的data,简而言之......是的提供此功能......

答案 1 :(得分:-1)

您可以使用jquery

var t = $('p').text();
var sentences = t.split('.');