我有一个包含多种语言的文本文件,如何读取R使用read.delim函数,
编码( “file.tsv”)
[1]“未知”
source_data = read.delim(file,header = F,fileEncoding =“windows-1252”,sep =“\ t”,quote =“”) source_D [360]
[1]“ð¿ð¾ð¸ñðºð½ð°ññ,ð¾ð¼ñð°ð¹ñ,ðμ”
但是在记事本中显示的source_D [360]是'поискнаэтомсайте'
答案 0 :(得分:0)
source_data = read.delim(file,header = F,sep =" \ t",quote ="",stringsAsFactors = FALSE) 编码(source_data)=" UTF-8"
我试过,如果你在Windows中运行R,上面的代码适合我。 如果你在Unix中运行R,你可以使用以下代码
source_data = read.delim(file,header = F,fileEncoding =" UTF-8",sep =" \ t",quote ="" ,stringsAsFactors = FALSE)
答案 1 :(得分:0)
tidyverse方法:
在read_delim中使用选项locale
。
(阅读器函数使用_而不是。,通常阅读起来更快,更聪明)
此处有更多详细信息:https://r4ds.had.co.nz/data-import.html#parsing-a-vector
source_data = read_delim(file, header= F,
locale = locale(encoding = "windows-1252"),
sep = "\t", quote = "")