有没有办法在磁盘上获取大量数据(几百GB)并在磁盘上与它作为pandas数据帧进行交互?
这是我到目前为止所做的事情:
使用pytables和此示例描述数据: http://www.pytables.org/usersguide/introduction.html
通过将部分数据(几GB)加载到HDF5文件中来运行测试
使用pd.DataFrame.from_records()将数据转换为数据框
最后一步将所有数据加载到内存中。
我已经找到了一些方法来将数据描述为步骤1中的pandas数据帧,但是还没有找到一组好的指令来做到这一点。我想做的是可行的吗?
答案 0 :(得分:0)
blaze是一种通过使用延迟表达式评估与核外数据进行交互的好方法。这会使用<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta name="author" content="John Doe" />
<meta name="description" content="Created: 2015-06" />
<base href="http://www.MyURL.com" target="_self" />
<!-- CSS -->
<link rel="stylesheet" type="text/css" href="includes/styles.css" />
<!-- CSS - Font Awesome -->
<link rel="stylesheet" type="text/css" href="http://maxcdn.bootstrapcdn.com/font-awesome/4.3.0/css/font-awesome.min.css" />
<title>My Page</title>
</head>
<body>
<div class="wrapper">
<!-- ... -->
和pandas
(以及odo的大量转化)