R简化数据

时间:2014-12-16 21:22:26

标签: r ggplot2 data-cleansing

我有一个有两列数据的csv,其中我想绘制两条线来比较值的差异。但是,在生成数据时,我想要一个大的样本大小,因此该文件包含一百万个条目。在我对R绘图渲染的无知中,我决定读入所有数据,然后绘制百万点线。

我已经完成了几个问题,但没有看到任何符合我需要的东西。此外,我目前正试图从Introduction to data cleaning with R收集信息,但很难理解它。

我想要做的是在我的数据中每10行中使用一行,并使用这些作为数据进行绘图(100k项目应该比1M项目好很多,对吧?)。什么是最好的方法。这实际上是简化数据的最佳方法吗?我的方法有更好的替代方案吗?

示例数据:

OptionA, OptionB
1,0,
23,0,
4,0,
5,1,
20091,0,

1 个答案:

答案 0 :(得分:1)

有更好的方法可以在R(Google sample函数)中执行此操作,但要获取每10行,假设您的数据被调用data

data[(1:100000)*10,]

就这么简单。 1:10000生成一个从1到100000的数字列表。然后将这些数字乘以10,得到10,20,...... 1000000.这些是行,而,没有任何意义所有专栏。所以你最终得到每一行和所有列。

我希望这会有所帮助。