使用Pandas DataFrame处理磁盘上的数据

时间:2015-06-13 14:55:46

标签: pandas hdf5 pytables

有没有办法在磁盘上获取大量数据(几百GB)并在磁盘上与它作为pandas数据帧进行交互?

这是我到目前为止所做的事情:

  1. 使用pytables和此示例描述数据: http://www.pytables.org/usersguide/introduction.html

  2. 通过将部分数据(几GB)加载到HDF5文件中来运行测试

  3. 使用pd.DataFrame.from_records()将数据转换为数据框

  4. 最后一步将所有数据加载到内存中。

    我已经找到了一些方法来将数据描述为步骤1中的pandas数据帧,但是还没有找到一组好的指令来做到这一点。我想做的是可行的吗?

1 个答案:

答案 0 :(得分:0)

blaze是一种通过使用延迟表达式评估与核外数据进行交互的好方法。这会使用<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8" /> <meta http-equiv="X-UA-Compatible" content="IE=edge" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <meta name="author" content="John Doe" /> <meta name="description" content="Created: 2015-06" /> <base href="http://www.MyURL.com" target="_self" /> <!-- CSS --> <link rel="stylesheet" type="text/css" href="includes/styles.css" /> <!-- CSS - Font Awesome --> <link rel="stylesheet" type="text/css" href="http://maxcdn.bootstrapcdn.com/font-awesome/4.3.0/css/font-awesome.min.css" /> <title>My Page</title> </head> <body> <div class="wrapper"> <!-- ... --> pandas(以及odo的大量转化)