使用jsoup查找HTML中关键字的计数

时间:2015-06-23 02:06:21

标签: jsoup

我试图在网页中找出关键字与总字数之比,我正在使用jsoup来解析网页的HTML。我想知道如何使用JSOUP找出网页中关键字的数量。我想知道JSOUP中是否有函数可以做到这一点谢谢!

1 个答案:

答案 0 :(得分:1)

我不认为有一种计算Jsoup中单词的方法,因为JSoup只是解析html / xml。如果您可以获取所有文本(包括可能由于隐藏的CSS规则而无法呈现的内容),您可以使用Element.text()。有关详细信息,请参阅here

Element body = doc.body();
String allText = body.text();  

现在,您可以使用allText中的字符串进行各种文字处理。用于文字处理的好库可能是apache lucene或更简单的东西,如Wordcounter