应用错误收集

如果我没有在正确的部分发帖，请引导我。

我的训练数据有一些文本文件，这些文件未在word文档中格式化。它们都只包含ASCII字符。

我想使用数据挖掘方法在文本文件上训练模型。

文本文件平均每个文件大约有300个单词。

是否有任何软件建议我开始使用它？

我最初的想法是使用其中一个文件中的所有单词作为训练数据，剩下的作为测试数据。这是执行交叉折叠验证。

但是，我有像weka这样的工具，但它似乎不能满足我的需求，因为转换为csv文件在我的情况下似乎不可行，因为文本文件是分开的

我尝试以这样的方式执行交叉验证，即训练数据中的所有单词都被视为要素。