对此我有些麻烦。我尝试使用正则表达式,但是正则表达式没有提供我需要的确切匹配数。我知道我应该有多少场比赛。
我试图在.txt
文件中找到所有出现的特定单词,而该文件只是文本中的html
页。
问题是,我要搜索的单词可能是网站上的id, class, or just in text
,所以我需要在整个网站上抓这个单词。
例如,对于正则表达式,如果单词是“ car”,则正则表达式将其与“ racecar”匹配。
我调查了https://jsoup.org/,这是最好的选择。
很清楚,我看着我的方法在这个HTML片段中两次找到“ dog”
<p id="Dog">The dog went for a walk today.</p>
我希望我很清楚-使用Regex甚至可以做到这一点,但是我做错了。我正在使用Pattern
,并将模式用作\\bwordToBeSearchedFor\\b