Question

此代码循环遍历nltk库中word.words（）中的每个单词，然后将该单词推送到数组中。然后它通过使用相同的库检查数组中的每个单词以查看它是否是实际单词，并且不知何故许多单词是完全不真实的奇怪单词，例如＆＃34; adighe＆＃34;。这里发生了什么？

import nltk
from nltk.corpus import words

test_array = []
for i in words.words():
    i = i.lower()
    test_array.append(i)

for i in test_array:
    if i not in words.words():
        print(i)

Answer 1

我不认为这里有什么神秘的事情发生。我发现的第一个这样的例子是＃A;＆＃34;，＆＃34;狗头猿是埃及神Thoth＆＃34;神圣的。因为它是一个专有名词，＆＃34; Aani＆＃34;在单词列表和＆＃34; aani＆＃34; ISN＆＃39;吨

根据dictionary.com，＆＃34; Adighe＆＃34;是＆＃34; Adygei＆＃34;的替代拼写，这是另一个专有名词，意思是俄罗斯的一个地区。因为它也是一种语言，我想你可能会认为＆＃34; adighe＆＃34;也应该被允许。这个特定的单词列表会争辩说它不应该。

来自nltk语料库的Words.word（）似乎包含奇怪的无效单词

1 个答案: