Question

我这里有一个文字，例如Lorem ipsum让我说我正在寻找带柴油发动机的汽车。 Realtext大约有11000个单词。我正在使用Python3并查看了nltk，但没有找到正确的想法。

Exampletext：

Lorem ipsum dolor sit amet，consetetur sadipscing elitr，sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat，sed diam voluptua。在vero eos et accusam et justo duo dolores et ea rebum。 Stet clita kasd gubergren，no sea takimata sanctus est Lorem ipsum dolor sit amet。 Lorem ipsum dolor 我的旧车有一个漂亮的柴油发动机坐在amet，consetetur sadipscing elitr，sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat，sed diam voluptua。在vero eos et accusam et justo duo dolores et ea rebum。 Stet clita kasd gubergren，no sea takimata sanctus est Lorem ipsum dolor sit amet。

问题：

我如何有效地做到这一点？您能否告诉我一些文本挖掘算法以供进一步研究，例如，如果我想搜索多个关键字。

Update1开始

我想找到文本中两个单词之间的距离（换句话说）。在我的例子中，距离是4（汽车和柴油之间的3个字）

Update1结束

到目前为止我的想法是迭代单词列表并检查单词是否是汽车然后我检查当前单词之前和之后的5个单词是否与柴油相同。在我的真实代码中，我做了一些模糊匹配，因此你可以忽略像“汽车”这样的特殊情况。

near = 5
textLines = text.splitlines()
words = []
for line in textLines:
    wordlist = line.split(' ')
    for word in wordlist:    
            words.append(word)

for idx, val in enumerate(words):
    if word is 'car': 
        print (idx, val)
        print ("near words")
        for x in range(1,near+1):
            print(words[idx-x])
            # check for diesel
        print("after")
        for x in range(1,near+1):
            print(words[idx+x])
            # check for diesel

如何有效地检查邻居元素的特征

0 个答案: