我需要遍历英语词典中的所有单词&根据它们是名词/动词还是其他任何内容来过滤某些内容。某些其他特征。有什么东西我可以用作这些词的来源吗?
答案 0 :(得分:2)
只是想提一下,关于WordNet,有“停用词”,不包括在内。网上有些人制作了一些停用词,但我不确定它们是多么完整。 一些停止的词是:''','that','我','''来自''''。
更大的列表在这里: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html
有关单词列表,请参阅此sourceforge项目: http://wordlist.sourceforge.net/
您可能还想搜索此类列表的 usecases ,以便找到合适的数据源。
例如:
拼写检查算法使用单词列表(独立的拼写检查程序,OpenOffice等文字处理应用程序)。
文字游戏算法使用单词(拼字游戏,词汇教育游戏,填字游戏生成器)
密码破解算法使用单词来帮助查找弱密码。 outpost9.com/files/WordLists.html
还有几个Java API可供选择,只有一些使用最新的字典(3.1)麻省理工学院的一个使用Java 5和WordNet 3.1的单词。
答案 1 :(得分:1)
我推荐来自princeton.edu的WordNet。这是一个受欢迎的英文词汇数据库,其中包含以下字词属性:
smu.edu中有一个WordNet Java API,可以简化您在应用程序中使用WordNet的过程。您也可以下载数据库并自行解析,因为它只有12MB压缩。