我想从网页中提取句子(不仅仅是一个html剥离的文本)。我想知道流行的HTML解析库(如Jsoup?
)是否支持这些功能谢谢,
修改:
很抱歉,如果帖子不清楚。我需要自然语言句子,所以不一定用点分隔。
谢谢大家。我刚刚找到了这个库http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html,它似乎正是我想要的。
答案 0 :(得分:0)
JSoup
确实为提取和操纵 API
提供了非常方便的data
,简而言之......是的提供此功能......
答案 1 :(得分:-1)
您可以使用jquery
var t = $('p').text();
var sentences = t.split('.');