Question

我有2.3 GB csv个文件。当我使用R的data.table库中的fread函数读取它时，它会添加一个＆＃39; ï»¿＆＃39;符号到第一列。

因此，我的数据的第一栏是＆＃39; HistoryID＆＃39;在通过fread阅读后，它变为＆＃39; ï»¿HistoryID＆＃39;。其他列不受影响。是否应该使用特定的编码来解决此问题？

当我在read.csv函数中读取数据时，如果我们使用＆＃39; UTF-8-BOM＆＃39;编码，但同样似乎不适用于fread。

Answer 1

根据关于头颅的文件 - R-data.html#Variations-on-read_002etable

字节顺序标记仍会导致编码问题，可以像这样处理：

it can be read on Windows by
read.table("intro.dat", fileEncoding = "UTF-8")

but on a Unix-alike might need
read.table("intro.dat", fileEncoding = "UTF-8-BOM")

查看2.1 Variations on read.table

部分

似乎也建议read.csv使用这个技巧。

Fread函数更改大型csv文件中第一列的名称

1 个答案: