我需要一个简单的单词列表来过滤一些句子。我需要的是只从句子中找到有意义的单词。像这样:
In mathematics, and more specifically in graph theory, a graph is a representation of a set of objects where some pairs of objects are connected by links.
我想得到这个:
[mathematics, graph, theory, representation, set, objects, pairs, connected, links]
我认为一个非常常见的单词列表可以帮助我消除我不需要的东西,但我似乎无法找到一个好单词。
我能找到这样一个清单的想法吗?
答案 0 :(得分:1)
过滤动词和介词以及停用词应该能够提供所需的输出。以下是一组停用词: http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop http://www.lextek.com/manuals/onix/stopwords1.html