有人可以为韩语,印尼语,泰语和越南语推荐开源POS标记器吗?
我可以用来标记我目前拥有的语料库数据。 (例如the stanford-postagger)
如果您是开发人员并且愿意分享并让我测试POS标记器,我也不介意。
通过对输出进行一些修改,我使用jvntextpro
标记越南数据但我仍然希望在韩语,印度尼西亚语和泰语的POS标签上有更多的意见。
答案 0 :(得分:5)
在acl wiki之后:Korean morphological analyzer and part-of-speech tagger
我将开始关注韩国,泰国和韩国的NLP研究部门的网站。 On this page,你会找到研究部门的链接。
祝你好运!更新:OpenNLP有泰国PoS。以下是PoS opennlp tagger的模型:http://opennlp.sourceforge.net/models/thai/。
答案 1 :(得分:0)
您可能想尝试RDRPOSTagger:一个功能强大,易于使用且与语言无关的POS和形态标记工具包。
(编程语言:Python& Java)
RDRPOSTagger在学习和标记过程中获得快速性能。此外,与最先进的结果相比,RDRPOSTagger实现了极具竞争力的准确性。请参阅this paper中的实验结果,包括效果速度和标记准确性。
RDRPOSTagger现在支持13种语言的预训练POS和形态标记模型,包括泰语和越南语。