我正在解析制表符分隔的数据以创建表格数据,我想将其存储在HDF5中。
我的问题是我必须将数据聚合成一种格式,然后转储到HDF5中。这是大约1 TB大小的数据,所以我自然无法将其放入RAM中。 Dask可能是完成此任务的最佳方式。
如果我使用解析我的数据来适应一个pandas数据帧,我会这样做:
import pandas as pd
import csv
csv_columns = ["COL1", "COL2", "COL3", "COL4",..., "COL55"]
readcsvfile = csv.reader(csvfile)
total_df = pd.DataFrame() # create empty pandas DataFrame
for i, line in readcsvfile:
# parse create dictionary of key:value pairs by table field:value, "dictionary_line"
# save dictionary as pandas dataframe
df = pd.DataFrame(dictionary_line, index=[i]) # one line tabular data
total_df = pd.concat([total_df, df]) # creates one big dataframe
使用dask执行相同的任务,用户应该尝试这样的事情:
import pandas as pd
import csv
import dask.dataframe as dd
import dask.array as da
csv_columns = ["COL1", "COL2", "COL3", "COL4",..., "COL55"] # define columns
readcsvfile = csv.reader(csvfile) # read in file, if csv
# somehow define empty dask dataframe total_df = dd.Dataframe()?
for i, line in readcsvfile:
# parse create dictionary of key:value pairs by table field:value, "dictionary_line"
# save dictionary as pandas dataframe
df = pd.DataFrame(dictionary_line, index=[i]) # one line tabular data
total_df = da.concatenate([total_df, df]) # creates one big dataframe
创建~TB数据帧后,我将保存到hdf5。
我的问题是total_df
不适合RAM,必须保存到磁盘。 dask
数据帧可以完成此任务吗?
我应该尝试别的吗?从多个dask数组创建HDF5会更容易吗,即每个列/字段是一个dask数组?也许在几个节点之间划分数据帧并在最后减少?
编辑:为清楚起见,我实际上不是直接从csv文件中读取。我正在聚合,解析和格式化表格数据。因此,上面使用readcsvfile = csv.reader(csvfile)
是为了清晰/简洁,但它比在csv文件中读取要复杂得多。
答案 0 :(得分:7)
Dask.dataframe通过懒惰处理大于内存的数据集。将具体数据附加到dask.dataframe将不会有效。
pandas.read_csv功能非常灵活。您在上面说过,您的解析过程非常复杂,但是仍然值得查看pd.read_csv
的选项以查看它是否仍然有效。 dask.dataframe.read_csv
函数支持这些相同的参数。
特别是如果担心您的数据是由制表符而不是逗号分隔的,那么这根本不是问题。 Pandas支持sep='\t'
关键字以及其他几十个选项。
如果你想逐行操作textfiles,那么考虑使用dask.bag解析你的数据,从一堆文本开始。
import dask.bag as db
b = db.read_text('myfile.tsv', blocksize=10000000) # break into 10MB chunks
records = b.str.split('\t').map(parse)
df = records.to_dataframe(columns=...)
一旦你有dask.dataframe,试试.to_hdf
方法:
df.to_hdf('myfile.hdf5', '/df')