java - 正则表达式从类似wiki的科学文章中提取单词

我试图仅从科学文章中提取单词以进一步分析它们。通过编写此正则表达式，我几乎达到了预期的结果：\b[^\d\W]+\b
以下是我现在所拥有的https://regex101.com/r/7YStbQ/1

但我还需要域名和带有标点符号的类似字词，例如merriam-webster.com.或et al.，etc.。

我想要实现的另一件事是排除所有不重要的英语介词，文章和其他短语构造（the, a, an, in, out, or, by, with, and, is, on, of, at, to etc）。但我读过英语中有超过150个介词。因此，排除至少最短的将是伟大的。）

在我的例子中，我将其定义为一个单词，它是一个非空白连续的字母序列。基本上我只想获得有意义的英语单词。寻找有关如何改进我的正则表达式的任何提示和建议。