当我尝试在Weka中打开制表符分隔文件时,它说:“文件格式无法识别”。在随后的对话框中,它显示weka.core.converters.CSVLoader
并显示“读取以逗号分隔或制表符分隔格式的源”。当我单击确定按钮时,它会抛出一个错误,指出“错误的数值。读取11,预期10行4”。我在Excel中验证了相同的文件,该行有10个字段。
有人可以建议解决方法吗?
数据文件无法转换为CSV格式,因为某些字段包含逗号。
答案 0 :(得分:1)
安装非官方 Weka 软件包 common-csv-weka-package 时,您可以使用 CommonCSVLoader
加载器加载制表符分隔的 CSV 文件。只需将加载程序的格式从 DEFAULT
更改为 TDF
(-F
命令行选项)。
答案 1 :(得分:0)
我有同样的问题。到目前为止,我找到的最佳解决方案是使用R将表格数据文件转换为arff。 Google有两个关键词“将数据导入R”和“将R数据导出到weka arff”。我的第二选择是使用JMP或SAS打开csv或Excel工作簿,然后导出为CSV。
答案 2 :(得分:0)
我找到了一个解决方案:对于 Windows 10,从这个 url 安装 R 语言包: https://cran.r-project.org/web/packages/rio/index.html
从以下位置安装 RStudio: https://www.rstudio.com/products/rstudio/download/#download
从 RStudio 中的提示开始,按照此处的导入、导出和转换数据文件说明进行操作: https://cran.microsoft.com/snapshot/2015-11-15/web/packages/rio/vignettes/rio.html
很好用,将我的 .tsv 文件转换为 Weka arff 格式没问题。我唯一还没有做的是在 Weka 中测试 arff 文件(并与 Python sklearn 结果进行比较),因为我希望文本消息正文中嵌入的逗号没有问题。 Scikit-Learn 和 TfidfVectorizer 在 tsv 文件中嵌入逗号没有问题!