应用错误收集

时间：2015-09-16 10:29:13

标签： text language-agnostic weka tokenize

我有英文和西班牙文的文本，我想用Weka分别标记每个文本，然后将两个结果合并到一个输出中。

如果我复制英语的属性，然后复制西班牙语的属性，就像为两个实验生成的数据一样，是西班牙语属性的索引（西班牙语）数据）将指向英语。

如果我混合文本。我不知道每种语言会生成多少属性（我希望每种语言都有相同数量的属性）。

在Weka中，以任何方式存在，将两种结果混合在同一输出中，并且每种语言具有相同数量的属性？或者存在一种模式来配置Tokenizer的字典，因为它使用我自己的字典？

提前致谢。

答案 0 :(得分：0)

您可以构建分层模型。

在第1级，你为每种语言建立一个单独的独立模型，无论它们有什么标记（不同的标记）。然后输出他们的任何最终类的预测概率，作为文本（任何语言）和类之间的映射（最终任务的共同点，可以是中间特征）。

使用这些常用类构建一个二级模型，在该模型中将预测映射到最终的类。