应用机器学习分析混合语言

时间:2014-10-31 04:49:01

标签: machine-learning

我是机器学习的先驱,我想知道是否可以将机器学习应用于以下情况。

Image我正在将一个混合语言字符串(英语+其他任何东西)传递给机器学习库,我希望该库告诉我这个字符串是否已完全从英语翻译成目标语言。例如

示例1:

  • 输入: "我是iphone" #(我喜欢西班牙语的iphone)
  • 预期结果:
    不需要将来的翻译作为iPhone'是一个品牌名称

示例2:

  • 输入:

    "请上传您的文件" #(请用中文上传文件)

  • 预期结果:

    需要将来翻译(中文)为"上传"是一个应该被翻译的行动。

如果机器学习可以应用于此,那么我该如何选择输入字符串的维度以及我应该选择哪种算法(逻辑回归或神经网络?)

由于

1 个答案:

答案 0 :(得分:1)

自然语言处理是一个庞大而多样化的领域。你可以通过多种方式思考你的例子。

第一个是字符集和符号编码。大多数非浪漫语言都有标准26字母字母以外的字符。如果你看到一个语言的核心字符范围内外的字符,它可以解决需要很多字典的问题。

第二种是查看某种语言中的一组示例或单词,并使用朴素贝叶斯分类将单词与某些训练集中的语言相关联。

您可能会进一步进行干细胞检测,但我还没有对它进行过充分的研究。考虑在Crossvalidated上发布。