将txt文件导入R Studio包含不需要的BOM字符“”

时间:2016-03-24 06:51:16

标签: r text byte-order-mark apriori arules

当我导入以下数据保存为UTF-8编码的Txt文件

1   test1
1   test2
2   test1
2   test3

进入R-Studio我在结果表中出现了BOM字符“”的问题。下面是我用于导入数据的代码。

library(arules)
library(arulesViz)

txn <- read.transactions("r-test.txt",rm.duplicates= FALSE,format="single",sep="\t",cols = c(1,2))
inspect(txn)

结果导入如下所示:

  items         transactionID
1 {test2}       1            
2 {test1,test3} 2            
3 {test1}       1 

2 个答案:

答案 0 :(得分:0)

我发现,通过将文件保存为ANSI编码的txt文件,可以解决问题。

  items         transactionID
1 {test1,test2} 1            
2 {test1,test3} 2  

您可以使用以下r studio代码将文件转换为ANSI格式:

writeLines(iconv(readLines("Old File Name"), from = "UTF8", to = "ANSI_X3.4-1986"), 
           file("New File Name", encoding="ANSI_X3.4-1986"))

希望如果他们遇到同样的问题,这可以帮助其他人。

答案 1 :(得分:0)

read.transactions也有一个编码参数。尝试将其设置为&#34; UTF8&#34;

read.transactions(file, format = c("basket", "single"), sep = "",
              cols = NULL, rm.duplicates = FALSE, 
              quote = "\"'", skip = 0, 
              encoding = "unknown")