动作 将两个csv(data.csv和label.csv)读取到单个数据帧。
df = dd.read_csv(data_files, delimiter=' ', header=None, names=['x', 'y', 'z', 'intensity', 'r', 'g', 'b'])
df_label = dd.read_csv(label_files, delimiter=' ', header=None, names=['label'])
问题 列的连接需要已知的划分。但是,设置索引会对数据进行排序,这是我明确不想要的,因为两个文件的顺序都是匹配的。
df = dd.concat([df, df_label], axis=1)
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-11-e6c2e1bdde55> in <module>()
----> 1 df = dd.concat([df, df_label], axis=1)
/uhome/hemmest/.local/lib/python3.5/site-packages/dask/dataframe/multi.py in concat(dfs, axis, join, interleave_partitions)
573 return concat_unindexed_dataframes(dfs)
574 else:
--> 575 raise ValueError('Unable to concatenate DataFrame with unknown '
576 'division specifying axis=1')
577 else:
ValueError: Unable to concatenate DataFrame with unknown division specifying axis=1
试过
添加'id'
列
df['id'] = pd.Series(range(len(df)))
但是,Dataframe的长度导致系列大于内存。
问题 显然Dask知道两个Dataframe具有相同的长度:
In [15]:
df.index.compute()
Out[15]:
Int64Index([ 0, 1, 2, 3, 4, 5, 6,
7, 8, 9,
...
1120910, 1120911, 1120912, 1120913, 1120914, 1120915, 1120916,
1120917, 1120918, 1120919],
dtype='int64', length=280994776)
In [16]:
df_label.index.compute()
Out[16]:
Int64Index([1, 5, 5, 2, 2, 2, 2, 2, 2, 2,
...
3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
dtype='int64', length=280994776)
如何利用这些知识简单地连接?
答案 0 :(得分:2)
解决方案(来自@Primer的评论):
最终代码;
import os
from pathlib import Path
import dask.dataframe as dd
import numpy as np
import pandas as pd
df = dd.read_csv(['data/untermaederbrunnen_station1_xyz_intensity_rgb.txt'], delimiter=' ', header=None, names=['x', 'y', 'z', 'intensity', 'r', 'g', 'b'])
df_label = dd.read_csv(['data/untermaederbrunnen_station1_xyz_intensity_rgb.labels'], header=None, names=['label'])
# len(df), len(df_label), df_label.label.isnull().sum().compute()
df = df.repartition(npartitions=200)
df = df.reset_index(drop=True)
df_label = df_label.repartition(npartitions=200)
df_label = df_label.reset_index(drop=True)
df = df.assign(label = df_label.label)
df.head()
答案 1 :(得分:0)
我遇到了同样的问题,并通过确保两个数据帧具有相同数量的分区(因为我们已经知道它们都具有相同的长度)来解决了这个问题:
df = df.repartition(npartitions=200)
df_label = df_label.repartition(npartitions=200)
df = dd.concat([df, df_label], axis=1)
答案 2 :(得分:0)
我遇到了类似的问题,解决方案只是使用.compute_chunk_sizes()
计算要放入数据帧中的每个dask数组的块大小。之后,就没有问题将它们连接到axis=1
的数据框中。