是否存在巨大的CSV / XML或任何包含英语动词及其变体列表的文件(例如卖出,出售,销售,卖家,卖家)?
我认为这对NLP系统很有用,但似乎并不是一个列表,或者它可能是我可怕的谷歌搜索技巧。有没有人有其他线索?
答案 0 :(得分:4)
考虑Catvar:
分类变异数据库(或Catvar)是未反射词(词汇)及其分类(即词性)变体的群集的数据库。例如,饥饿(V),饥饿(N),饥饿(AJ)和饥饿(N)这两个词是描述饥饿状态的一些基本概念的不同英语变体。另一个例子是开发集群:(develop(V),developer(N),develop(AJ),develop(N),develop(AJ),development(N))。
答案 1 :(得分:3)
我不确定你在寻找什么,但我认为WordNet
- 一个英语词汇数据库 - 将是一个很好的起点。阅读更多http://wordnet.princeton.edu/
我提到你的链接说
WordNet的结构使其成为计算语言学和自然语言处理的有用工具。
答案 2 :(得分:0)
考虑获取一个wiki的转储并从中提取这些信息 http://en.wiktionary.org/wiki/sell提到了许多形式的单词(销售,销售,销售)。
如果您的目标只是将单词标准化为某种基本规范形式,请考虑使用词形变换器或词干分析器。尝试使用morpha,这是一个非常好的英语引理器。