正则表达式从类似wiki的科学文章中提取单词

时间:2017-09-20 09:24:47

标签: java regex string

我试图仅从科学文章中提取单词以进一步分析它们。通过编写此正则表达式,我几乎达到了预期的结果:\b[^\d\W]+\b
以下是我现在所拥有的https://regex101.com/r/7YStbQ/1

但我还需要域名和带有标点符号的类似字词,例如merriam-webster.com.et al.etc.

我想要实现的另一件事是排除所有不重要的英语介词,文章和其他短语构造(the, a, an, in, out, or, by, with, and, is, on, of, at, to etc)。但我读过英语中有超过150个介词。因此,排除至少最短的将是伟大的。)

在我的例子中,我将其定义为一个单词,它是一个非空白连续的字母序列。基本上我只想获得有意义的英语单词。 寻找有关如何改进我的正则表达式的任何提示和建议。

0 个答案:

没有答案