我正在使用python开发NLP,下一步是收集有关英语语法中特定主题的大量数据。
例如:可以定义“部门”的所有单词都说“帐户”。
任何人都可以告诉我如何收集此类数据(如果可能,通过任何API)。
答案 0 :(得分:1)
NLTK wordnet是解决此类问题的理想框架。这是一个简短的文档: http://www.nltk.org/howto/wordnet.html它使用诸如“ synset”之类的事物对象,它为您提供具有共同含义的单词。也有方法为两个单词的相似性获得数值分数。引理将为您提供类似词根含义的单词。
如果您正在寻找更多与查找相关的单词(例如:“ spaghetti”->“ pasta”,“ ravioli”,“ Italy”数据库可能更好: https://www.datamuse.com/api/