我正在尝试使用数据子集进行一些模型训练。完整的下载方式是:
deepchem.utils.download_url(
'http://deepchem.io.s3-website-us-west-1.amazonaws.com/datasets/' +
"pdbbind_v2015.tar.gz",
dest_dir=data_dir)
这个数据库很大(2GB),我只需要大约400个样本。 有没有一种方法可以下载此数据的随机部分而无需下载全部数据集? 我似乎找不到如何执行此操作的线索,因此即使只是一个开始寻找答案的地方也会有所帮助