我试图完成的任务是抓取网页列表,看看所述网页上是否有任何常见的拼写错误。
这就是我卡住的地方。
我使用此RegEx(\ W | ^)(因此| w ||)(\ W | $) 从该字符串中找到拼写错误的单词: 因此,因此, wich whichita,presence, sence ,sence 并且忽略拼写错误是另一个词的一部分的单词
问题是,结果(单词)被移动到第二个捕获组和解析器我只使用显示第一组的结果。
所以我可以看到某个页面有一个拼写错误,但我不知道它是哪一个,因为它在第2组。
有没有办法在RegEx中更改组的顺序?
PS:使用其他东西找不到拼写错误的单词不是一种选择,我需要能够使用我使用的刮刀执行此任务。
提前致谢。