提前感谢您的帮助。
我正在寻找一个二进制可执行文件,将.arff转换为bash脚本中的.csv。理想情况下,我可以按照
的方式运行#! /bin/sh
... some stuff....
converstionFunc input.arff output.csv
... some more stuff ...
亲自写这篇文章,我发现weka提供了一个我可以利用的库,可以让我这样做。然而,就像我寻找它一样,我找不到它。我在我的Mac上安装了weka,在浏览了库之后我仍然无法找到它。
有谁知道我在哪里可以找到这样的可执行文件,或者能够指出我可以获取weka java库的地方,让我自己编写它?
答案 0 :(得分:2)
克隆此github存储库。它在“tools”子目录中包含一个arff2csv工具。
arff2csv旨在运行在unix命令行工具的管道中。
https://github.com/jeroenjanssens/data-science-at-the-command-line
arff2csv是一个单行shell脚本,它调用另一个调用weka.jar的shell脚本,
所以它需要在你的机器上安装java;并注意到arff2csv需要Weka版本3.6。 (根据我的实验,较新的v3.7不起作用。)
脚本需要设置此环境变量:
export WEKAPATH=/path/to/wekajar-dirname
然后你可以做
cat /opt/smallapps/weka-stable/data/breast-cancer.arff | arff2csv > breast-cancer.arff.csv
大型arff需要一些时间来处理。
您可以阅读J.Janssen的书(请参阅repo-README)了解更多信息。
答案 1 :(得分:0)
尝试对arff2csv
进行网络搜索。看起来有很多实用工具。