pandas - 使用Pandas DataFrame处理磁盘上的数据

使用Pandas DataFrame处理磁盘上的数据

时间：2015-06-13 14:55:46

标签： pandas hdf5 pytables

有没有办法在磁盘上获取大量数据（几百GB）并在磁盘上与它作为pandas数据帧进行交互？

这是我到目前为止所做的事情：

使用pytables和此示例描述数据： http://www.pytables.org/usersguide/introduction.html
通过将部分数据（几GB）加载到HDF5文件中来运行测试
使用pd.DataFrame.from_records（）将数据转换为数据框

最后一步将所有数据加载到内存中。

我已经找到了一些方法来将数据描述为步骤1中的pandas数据帧，但是还没有找到一组好的指令来做到这一点。我想做的是可行的吗？

1 个答案:

答案 0 :(得分：0)

blaze是一种通过使用延迟表达式评估与核外数据进行交互的好方法。这会使用<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8" /> <meta http-equiv="X-UA-Compatible" content="IE=edge" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <meta name="author" content="John Doe" /> <meta name="description" content="Created: 2015-06" /> <base href="http://www.MyURL.com" target="_self" />  <link rel="stylesheet" type="text/css" href="includes/styles.css" />  <link rel="stylesheet" type="text/css" href="http://maxcdn.bootstrapcdn.com/font-awesome/4.3.0/css/font-awesome.min.css" /> <title>My Page</title> </head> <body> <div class="wrapper"> 和pandas（以及odo的大量转化）