我想知道Java中是否存在支持短语和区分大小写搜索的HTML解析器。 我需要知道的是html页面中针对搜索短语的点击次数以及对区分大小写的支持。
谢谢, 夏尔马
答案 0 :(得分:1)
您是否尝试过this?
您可以使用正则表达式搜索文本。
答案 1 :(得分:0)
没有用,如果你把html页面作为文本,剥离html标签:
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
现在count你在noHTMLString中需要什么?如果你有带有标记的html页面可能会有所帮助:
this is <span>cool</span>
并且你需要寻找文字“很酷”(因为prev html页面将被转换为“这很酷”的字符串)。要计算你可以使用Apache Commons Lang中的StringUtils,它有一个名为countMatches的特殊方法。一切都应该如下:
String htmlString = "this is <span>cool</span>";
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches( noHTMLString, "is cool");
我会采用这种方法,至少尝试一下。这听起来比解析html好,然后遍历它寻找你需要的单词......