Java中用于短语和区分大小写搜索的HTML解析器

时间:2011-01-20 18:15:56

标签: java html parsing search html-parsing

我想知道Java中是否存在支持短语和区分大小写搜索的HTML解析器。 我需要知道的是html页面中针对搜索短语的点击次数以及对区分大小写的支持。

谢谢, 夏尔马

2 个答案:

答案 0 :(得分:1)

您是否尝试过this

您可以使用正则表达式搜索文本。

答案 1 :(得分:0)

没有用,如果你把html页面作为文本,剥离html标签:

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

现在count你在noHTMLString中需要什么?如果你有带有标记的html页面可能会有所帮助:

this is <span>cool</span>

并且你需要寻找文字“很酷”(因为prev html页面将被转换为“这很酷”的字符串)。要计算你可以使用Apache Commons Lang中的StringUtils,它有一个名为countMatches的特殊方法。一切都应该如下:

String htmlString = "this is <span>cool</span>";    
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches( noHTMLString, "is cool");

我会采用这种方法,至少尝试一下。这听起来比解析html好,然后遍历它寻找你需要的单词......