在Weka中从文本文件中创建一个arff文件

时间:2015-12-25 06:43:46

标签: machine-learning weka

在天真的byes分类器中,我想从我的火车和测试中找出准确性。但是我的火车就像

开心:absolution abundance abundant accolade accompaniment accomplish accomplished achieve achievement acrobat admirable admiration adorable adoration adore advance advent advocacy aesthetics affection affluence alive allure aloha

悲伤:abandon abandoned abandonment abduction abortion abortive abscess absence absent absentee abuse abysmal abyss accident accursed ache aching adder adrift adultery adverse adversity afflict affliction affront aftermath aggravating

愤怒:abandoned abandonment abhor abhorrent abolish abomination abuse accursed accusation accused accuser accusing actionable adder adversary adverse adversity advocacy affront aftermath aggravated aggravating aggravation aggression aggressive aggressor agitated agitation agony alcoholism alienate alienation

对于测试集 数据:Dec 7, 2014 ... This well-known nursery rhyme helps children practice emotions, like happy, sad, scared, tired and angry. If You're Happy and You Know It is ...

现在的问题是如何将它们转换为arff文件

2 个答案:

答案 0 :(得分:0)

您的训练集不适合训练Weka模型,但这些信息可用于特征提取。

您的测试集可以转换为arff文件。从每个消息中提取这些基本功能 任何形式的“快乐”这个词是否存在 2.是否存在任何形式的“悲伤”一词 任何形式的“愤怒”这个词都存在与否 4. TF-IDF 等

然后对于某些消息(比如70%),您应该手动分配一个类{Happy,Sad,Angry},剩余的30%可以通过您的模型进行测试。

这里给出了关于arff文件的更多信息: http://www.cs.waikato.ac.nz/ml/weka/arff.html

答案 1 :(得分:0)

从哪里开始;)。

在你的"训练数据之前写的"不是真正的训练数据。培训数据应该是与您用于测试的数据类似的文本。但是,在您的示例中,它只是一个单词列表。我的直觉是你最好避免使用weka,计算每个类别中的出现次数,并选择最匹配的那个。

如果您想使用Weka,我建议您使用与weka完美集成的工具箱https://www.knime.org。 然后,您应该将数据转换为一个单词表示。这基本上就是每个单词在每个文本中作为特征出现的次数。 也为此Knime有很好的包装。 http://www.tech.knime.org/files/KNIME-TextProcessing-HowTo.pdf