将文本文件转换为ARFF格式

时间:2013-10-31 06:10:23

标签: machine-learning classification weka document-classification arff

我知道如何使用TextDirectoryLoader将一组文本或网页文件转换为arff文件。

我想知道如何将单个文本文件转换为Arff文件。

任何帮助都将受到高度赞赏。

1 个答案:

答案 0 :(得分:3)

请更具体。无论如何:

  • 如果文件中的文字对应一个文件(即a,a 单个实例),那么你需要的只是替换所有“新行” 使用转义码\n使全文成为一行, 然后手动格式化为具有单个文本属性和a的arff 单个实例。

    如果文本对应于多个实例(例如文档),那么我 建议制作一个脚本将其分成几个文件并申请 TextDirectoryLoader。如果有任何特定的格式(例如 实例包含在XML标记中),您可以执行相同的操作(通过 利用XML格式),或编写自定义Loader WEKA中的类,用于识别您的格式并构建Instances对象。

如果您发布示例,则可以更轻松地获得更精确的建议。