使用java langdetect库进行日语检测

时间:2012-04-20 08:25:24

标签: java encoding nlp

我使用java library语言检测日语时遇到问题:

使用日文文本,我试图检测它的文本语言,但不是预期的“ja”我得到了“en”。有没有人见过这个问题?

预期产量是多少?

[ja:0.9999952022259697]

你看到了什么?

[en:0.9999952022259697]

您可以在附件here

中找到包含日文文字的原始问题说明

1 个答案:

答案 0 :(得分:1)

这几乎肯定是与输入文件的编码有关的问题(如果该文件完全包含日语 - 我不相信它会这样做。)

您链接的Java库假定 - 根据文档 - 输入是作为String对象提供的。这意味着它假设编码已被正确猜测并且输入字节序列已转换为 Java字符串。

当您使用该库时,您必须确保是这种情况,即如果您正在处理未知编码的文本(例如日语EUC-JP或SJIS),您必须首先检测编码并正确转换字符串

(由于这些原因,良好的语言检测器能够通过使用特定于语言和编码的内部词典来同时检测语言语言。)