应用错误收集

时间：2013-03-10 00:47:34

标签： plot dataset text-files regression linear

我有一个包含三列和大约1000万行的.txt文件。我试图绘制第二列和第三列，以及对第三列和第二列进行线性回归。

有没有人对我如何完成这项工作有任何建议？

到目前为止，我已经考虑过将文本转换为二进制文件并使用numpy的内存映射函数。我也在考虑将数据放入postgres数据库并使用python进行操作。但是，在我提交其中一种方法之前，我想知道是否有更好的方法。任何人都有像这样的大型数据集的经验，可以帮助我吗？

答案 0 :(得分：1)

对于绘图部分：Hadley Wickham创建了一个名为bigvis的R包。一些文档http://www.r-bloggers.com/visualize-large-data-sets-with-the-bigvis-package/

至于运行线性回归，您可能想要随机抽样并对样本执行回归。这是一个关于在R和Python上使用bigdata的好网页：http://www.r-bloggers.com/stepping-up-to-big-data-with-r-and-python-a-mind-map-of-all-the-packages-you-will-ever-need/

我希望有所帮助。