我正在尝试使用NORB数据集(http://www.cs.nyu.edu/~ylclab/data/norb-v1.0-small/)进行一些工作,但我无法从包含数据集的二进制文件中读取它。任何人都可以帮忙吗?
我尝试numpy.fromfile()
,但它以错误的方式读取文件。
答案 0 :(得分:3)
我最近遇到了同样的问题,因为我不得不使用该数据集,我发现它是以一种奇怪的二进制格式分发的。
为此,我制作了一个你可能觉得有用的 python包装。你可以找到它here。
用法非常简单:
dataset = SmallNORBDataset(dataset_root='small_norb_root')
其中small_norb_root
是下载和提取数据集文件的文件夹。所有解析内容都发生在类的初始化中,并且对用户是透明的。初始化后,您可以分别在dataset.data['train']
或dataset.data['test']
中找到所需的数据。
您还可以探索数据集:
dataset.explore_random_examples(dataset_split='train')
如果一切顺利,输出应如下所示: