标签: nlp linguistics corpus
我正在尝试编写一个简单的文本挖掘应用程序,试图告诉德语单词的性别和复数形式。
所以,首先,我需要一个大的词汇表进行培训。我一直在搜索,但找不到任何性别或复数的列表。
答案 0 :(得分:3)
您可以使用Durm German Lemmatizer,Morphisto Lexikon或ispell dictionary for German中的数据。您可以通过查看我del.ico.us page with tag "german"
答案 1 :(得分:1)
您可以挖掘English和German维基词典中提供的数据。您可以下载每个here和here的当前数据。
但我警告你,wikitext是一种非常模糊的格式,英语和德语维基词典用户提出了完全不同的方式来为每个项目使用它。