我正在寻找庞大的文本分类数据集,以应用我在机器学习课程中所学的知识。我正在寻找宽数据和高数据。到目前为止,我发现的数据介于200Mb至500Mb之间。请提供我可以找到最大2gb或更多数据集的任何存储库/ URL。
答案 0 :(得分:0)
您可以在此处找到一些公开可用的数据集的好列表: https://github.com/awesomedata/awesome-public-datasets
作为示例,看看从250亿个网页中抓取的CommonCrawl数据集https://commoncrawl.org/。 可以在这里找到包含档案列表的索引:http://index.commoncrawl.org/