提取一种语言形式的最佳方法是什么?

时间:2013-05-14 01:18:10

标签: xml mediawiki wiktionary

我已搜索但未找到我想要的内容,即:

提取所有意大利语单词,词源和词性的最佳和最有效的方法......包括来自wiktionary的复数形式的单词(amico,amichi)。我想将它放入CSV(可能太大)或MySQL数据库作为纯文本(不是blob)。

我希望每个意大利语单词都有必要的英文记录。

mwdumper也一直在崩溃。

欢迎任何建议!

1 个答案:

答案 0 :(得分:2)

我创建了一个小型Java程序,它从en.wiktionary XML转储here中提取词性(动词,名词,形容词等),它使用TSV但可以很容易地进行调整。