我希望这是一个适当的问题。如果没有,请告诉我,我会立即将其删除。
问题:
如何使用python检查(在视觉上?)大型数据集中是否存在组合期间出现的错误?
背景:
我正在处理几个大型(但不是,你知道的“大”)数据集,我将这些数据集合并为一个更大的数据集。这个新集的大小约为2.5G,因此它不适合大多数电子表格程序,或者至少不适合我尝试过的程序(MS Excel,OpenOffice)。
创建最终数据集的过程使用模糊匹配(通过fuzzywuzzy
),我想检查匹配的结果以查看是否存在任何错误。
截至目前,我已尝试将整个集合导入pandas
数据框。这个DF有64列,所以当我只做df.head()
这样的事情时,结果显示的信息显然不显示所有列;因此,我排除了迭代多个.head()
调用。
关于可视化数据框here的特定方面,存在类似的问题。我认为,我的问题不同,因为我不需要对底层结构或类型进行可视化。我只想视觉检查我怀疑可能有错误的区域。
答案 0 :(得分:1)
如何切片10-12行,然后转置你有64行x 12列数据帧。如果您没有非常大的索引名称,这应该是可读的。
import pandas as pd
import numpy as np
# Set max number of rows, 64 would be enough here but I'm trying to be safe
pd.set_option('display.max_rows', 500)
df = pd.DataFrame(np.random.randn(1000,64))
nstart = 100
# Slice 12 lines starting at nstart, and transpose that...
df.iloc[nstart:(nstart+13)].T
我在这里省略了输出,但尝试运行上面的代码。