我试图在网页中找出关键字与总字数之比,我正在使用jsoup来解析网页的HTML。我想知道如何使用JSOUP找出网页中关键字的数量。我想知道JSOUP中是否有函数可以做到这一点谢谢!
答案 0 :(得分:1)
我不认为有一种计算Jsoup中单词的方法,因为JSoup只是解析html / xml。如果您可以获取所有文本(包括可能由于隐藏的CSS规则而无法呈现的内容),您可以使用Element.text()。有关详细信息,请参阅here。
Element body = doc.body();
String allText = body.text();
现在,您可以使用allText
中的字符串进行各种文字处理。用于文字处理的好库可能是apache lucene或更简单的东西,如Wordcounter