我正在尝试编写机器学习算法,以便从训练数据中学习并对实例的语言进行分类。共有4种分类:波兰语,法语,斯洛伐克语,德语。
在训练数据中,数据是完整的句子,但在查看测试数据时,数据仅由单个字符表示。
例如,我的训练数据的实例如下所示:
"Et oui cest la fille du patron Il fait tout"
但我的测试数据如下:
"e e n t l n r i a e i a v i t s r e t n"
为什么我的训练数据集与我的测试数据集如此不同?这个问题的选择是什么?
答案 0 :(得分:0)
你有这样的列车设置是可疑的。唯一的方法是使用给定分布的概率
如果您有足够大的段落,您可以计算给定语言的每个字母的百分比值计数并将其与您的数据匹配。
例如,众所周知,足够大的英文文本字母“a”出现~8.167%,字母“e”~12.702%然而德语“a”出现~6.%和“e”~16.4% 。其他语言有不同的分布。
检查这篇维基百科文章:https://en.wikipedia.org/wiki/Letter_frequency