R使用特定编码读取tsv文件

时间:2012-03-19 03:01:11

标签: r tsv

我正在尝试使用特定编码将.tsv(制表符分隔值)文件读入R中。它应该是windows-1252。它有一个标题。

有关代码将其放入数据框的任何建议吗?

3 个答案:

答案 0 :(得分:19)

或许这样的事情?

mydf <- read.table('thefile.txt', header=TRUE, sep="\t", fileEncoding="windows-1252")
str(mydf)

答案 1 :(得分:6)

您也可以使用:

read.delim('thefile.txt', header= T, fileEncoding= "windows-1252")

只需将命令输入R consol:

 > read.delim
function (file, header = TRUE, sep = "\t", quote = "\"", dec = ".", 
    fill = TRUE, comment.char = "", ...) 
read.table(file = file, header = header, sep = sep, quote = quote, 
    dec = dec, fill = fill, comment.char = comment.char, ...)

显示read.delim是一个打包的read.table命令,它已将制表符指定为数据的分隔符。如果您正在处理大量tsv文件,read.delim可能会更方便。

更详细地讨论了两个命令之间的差异in this Stack question

答案 2 :(得分:2)

df <- read.delim(~/file_directory/file_name.tsv, header = TRUE)适用于单个.tsv文件,因为它已经标签分开,因此不需要sep = "\t"。可以使用fileEncoding= "windows-1252"但不是必需的。