如何使用c#或java脚本检测巴西葡萄牙语与欧洲葡萄牙语

时间:2016-09-17 20:12:39

标签: javascript c# regex ascii unicode-string

我需要确定巴西和欧洲葡萄牙语之间的区别 要么用 字符集或unicodes或ascii字母或正则表达式 或用三字母来识别这两种语言的差异。 大多数语言检测器如NTextCart,guesslanguages.js都没有识别语言的差异。任何人都可以解决这个问题。

提前致谢:)

1 个答案:

答案 0 :(得分:1)

与分别讲美国英语和英国英语没什么不同

您必须了解这两种语言并寻求非常具体的差异。这是一个棘手且不准确的方法。此外,您可能需要获取消息的上下文以获取单词的含义。

即使是土生土长的葡语人士也很难告诉他们appart,对于小文本来说情况更糟。

举一个例子,在巴西和葡萄牙的新闻网站上搜索相同的主题(例如,克林顿x特朗普辩论)并尝试阅读它们并看到差异。你会有一个想法。

另外请记住,如果你正在进行随意聊天,你需要处理来自每个国家的俚语,误导和区域特定表达。

在阅读Guesslanguagew如何使用trigram分析之后 我觉得不适当的时间告诉方言。拼写不同的单词很少。