我希望能够跳过在v1.8.9中通过data.table
的{{1}}函数读入R的列。但是我正在阅读的csv,没有列标题...这对于fread来说似乎是一个问题...有没有办法只指定我不想要特定的列?
预先分配一个列名然后让它读取它以便可以跳过它会更好吗?
举个例子......
我从以下网址下载了数据
http://www.truefx.com/dev/data/2013/MAY-2013/AUDUSD-2013-05.zip
解压缩它......并使用fread将csv读入R,并且它与csv扩展名具有几乎相同的文件名。
fread
我尝试使用新的(ish)colClasses或跳过参数来忽略第一列完全相同的事实......并且是不必要的。
但正在做:
system.time(pp <- fread("AUDUSD-2013-05.csv",sep=","))
user system elapsed
16.427 0.257 16.682
head(pp)
V1 V2 V3 V4
1: AUD/USD 20130501 00:00:04.728 1.03693 1.03721
2: AUD/USD 20130501 00:00:21.540 1.03695 1.03721
3: AUD/USD 20130501 00:00:33.789 1.03694 1.03721
4: AUD/USD 20130501 00:00:37.499 1.03692 1.03724
5: AUD/USD 20130501 00:00:37.524 1.03697 1.03719
6: AUD/USD 20130501 00:00:39.789 1.03697 1.03717
str(pp)
Classes ‘data.table’ and 'data.frame': 4060762 obs. of 4 variables:
$ V1: chr "AUD/USD" "AUD/USD" "AUD/USD" "AUD/USD" ...
$ V2: chr "20130501 00:00:04.728" "20130501 00:00:21.540" "20130501 00:00:33.789" "20130501 00:00:37.499" ...
$ V3: num 1.04 1.04 1.04 1.04 1.04 ...
$ V4: num 1.04 1.04 1.04 1.04 1.04 ...
- attr(*, ".internal.selfref")=<externalptr>
没有省略第一栏的读数
并使用colClasses导致以下错误
pp1 <- fread("AUDUSD-2013-05.csv",sep=",",skip=1)
其他尝试包含
pp1 <- fread("AUDUSD-2013-05.csv",sep=",",colClasses=list(NULL,"character","numeric","numeric"))
Error in fread("AUDUSD-2013-05.csv", sep = ",", colClasses = list(NULL, :
colClasses is type list but has no names
,就好像我没有使用过colClasses一样......
是否有任何建议可以通过省略第一列来加快数据的读取?
也许有点问题,但是有可能直接读取zip文件而不是先解压缩然后再读取csv吗?
哦,如果不清楚我正在使用data.table v1.8.9
与往常一样,感谢您提前提供的所有帮助,努力和建议。
答案 0 :(得分:12)
我认为您正在寻找的论点是drop
。尝试:
require(data.table) # 1.9.2+
pp <- fread("AUDUSD-2013-05.csv", drop = 1)
请注意,您可以{名称或职位drop
。
fread("AUDUSD-2013-05.csv", drop = c("columThree","anotherColumnName"))
fread("AUDUSD-2013-05.csv", drop = 10:15) # read all columns other than 10:15
您也可以通过姓名或职位select
。
fread("AUDUSD-2013-05.csv", select = 10:15) # read only columns 10:15
fread("AUDUSD-2013-05.csv", select = c("columnA","columnName2"))
这些论点被添加到v1.9.2(2014年2月发布到CRAN)并记录在?fread
中。您需要升级才能使用它们。