德语和西班牙语语言的文本处理工具

时间:2018-03-13 08:22:28

标签: java nlp stanford-nlp text-mining linguistics

我正在尝试用德语和西班牙语处理文本。由于该语言有无数的NLP包,因此可以直接使用英文文本。但对其他语言来说并不容易。我找到了一些德语文本包,但我不知道哪一个更准确。此外,考虑到这种语言中有一些特殊字符,找到西班牙语文本的NLP包更加困难。我需要对文本执行的一些步骤是:句子拆分,标记,Pos标记和词干。换句话说,我正在寻找适用于Java中这两种语言中的一种或两种语言的东西。

赞赏有关此主题的任何信息。

2 个答案:

答案 0 :(得分:1)

我可以推荐你 Freeling ,检查它的Freeling_online_demo,它包括句子拆分,标记,Pos标记和其他几种语言的功能。我不知道德国有多好,但分析西班牙语是我所知道的最好的工具。我刚刚通过python +命令行使用了Freeling,但也有java的接口,例如Freeling_jaVa_API

祝你好运!

答案 1 :(得分:0)

如果您愿意跳过Java要求,Spacy是一个非常简单,前沿的Python库,其中包括预训练的西班牙语和德语models