我有一个包含三列和大约1000万行的.txt文件。我试图绘制第二列和第三列,以及对第三列和第二列进行线性回归。
有没有人对我如何完成这项工作有任何建议?
到目前为止,我已经考虑过将文本转换为二进制文件并使用numpy的内存映射函数。我也在考虑将数据放入postgres数据库并使用python进行操作。但是,在我提交其中一种方法之前,我想知道是否有更好的方法。任何人都有像这样的大型数据集的经验,可以帮助我吗?
答案 0 :(得分:1)
对于绘图部分:Hadley Wickham创建了一个名为bigvis的R包。一些文档http://www.r-bloggers.com/visualize-large-data-sets-with-the-bigvis-package/
至于运行线性回归,您可能想要随机抽样并对样本执行回归。这是一个关于在R和Python上使用bigdata的好网页:http://www.r-bloggers.com/stepping-up-to-big-data-with-r-and-python-a-mind-map-of-all-the-packages-you-will-ever-need/
我希望有所帮助。