如何混合Weka Tokenizer结果

时间:2015-09-16 10:29:13

标签: text language-agnostic weka tokenize

我有英文和西班牙文的文本,我想用Weka分别标记每个文本,然后将两个结果合并到一个输出中。

如果我复制英语的属性,然后复制西班牙语的属性,就像为两个实验生成的数据一样,是西班牙语属性的索引(西班牙语)数据)将指向英语。

如果我混合文本。我不知道每种语言会生成多少属性(我希望每种语言都有相同数量的属性)。

在Weka中,以任何方式存在,将两种结果混合在同一输出中,并且每种语言具有相同数量的属性?或者存在一种模式来配置Tokenizer的字典,因为它使用我自己的字典?

提前致谢。

1 个答案:

答案 0 :(得分:0)

您可以构建分层模型。

在第1级,你为每种语言建立一个单独的独立模型,无论它们有什么标记(不同的标记)。然后输出他们的任何最终类的预测概率,作为文本(任何语言)和类之间的映射(最终任务的共同点,可以是中间特征)。

使用这些常用类构建一个二级模型,在该模型中将预测映射到最终的类。