我一直在寻找大型数据集来测试各种类型的程序。有没有人有任何建议?
答案 0 :(得分:10)
查看netflix contest。我相信他们暴露了他们的数据库或一大部分数据库,以促进比赛。
更新:Their faq表示他们可以下载的子集中有1亿个条目。
答案 1 :(得分:5)
您可能希望查看美国统计协会data expo的数据 - 它是过去20年来美国所有商业航班的航班详情--1.2亿条记录,11条数据。< / p>
答案 2 :(得分:2)
我已经完成了Wikimedia下载集的一些工作,这些下载集是巨大的XML文件。不幸的是,他们的下载服务器似乎当前存在磁盘空间问题,因此很多数据集都不可用。但是当它可用时,整个英文维基百科数据集的完整历史记录是2.8 TB(压缩18 GB)。
答案 3 :(得分:2)
许多del.icio.us个用户(包括我自己)标记页面,其中包含使用“publicdata”标记的公共数据。您可以找到该归档here并订阅该标记的here RSS源。订阅源,您将看到在网络上弹出的源源不断的有趣数据集。
并非所有这些数据集都很大,但它们通常很有趣。
答案 4 :(得分:1)
您可能希望查看为Fuzz Testing生成随机数据。这将为您提供几乎无限量的测试数据,并且您更有可能遇到边缘情况。
可能还有一些关于您想要什么样的测试数据,什么格式以及哪些类型的应用程序的更多信息?
答案 5 :(得分:1)
我不知道您的目标平台是什么,但如果您正在针对MSSQL数据库进行开发,请查看Visual Studio for Database Professionals。它有一个非常酷的功能,它可以使用您可以定义的数据计划为您的架构生成数据。
Redgate还有一个数据加工工具,但我没有使用它。
优点是您可以创建数据生成计划并使用它来使用一致的大量数据填充数据库,这些数据可以调整为测试模式的特定区域。
答案 6 :(得分:1)
您可能还想查看Aaron Swartz的theinfo。
来自网站
这是一个大型数据集和网站 爱他们的人:刮刀 和收集它们的爬虫, 处理它们的学者和极客, 设计师和艺术家们 想象他们。这是一个地方 他们可以交换提示和技巧, 共同开发和共享工具,以及 开始整合他们的特殊 项目
答案 7 :(得分:0)
如果您对个性化的数据类型感兴趣,请查看Kimono Labs。它可以用来刮取任何网站的网页抓取软件,没有任何行返回限制。只需在其上设置一个API(您可以使用他们的url生成器立即抓取一堆网址),然后将您的个人数据集用作JSON,CSV或RSS。