如果我没有在正确的部分发帖,请引导我。
我的训练数据有一些文本文件,这些文件未在word文档中格式化。它们都只包含ASCII字符。
我想使用数据挖掘方法在文本文件上训练模型。
文本文件平均每个文件大约有300个单词。
是否有任何软件建议我开始使用它?
我最初的想法是使用其中一个文件中的所有单词作为训练数据,剩下的作为测试数据。这是执行交叉折叠验证。
但是,我有像weka这样的工具,但它似乎不能满足我的需求,因为转换为csv文件在我的情况下似乎不可行,因为文本文件是分开的
我尝试以这样的方式执行交叉验证,即训练数据中的所有单词都被视为要素。