大型公共数据集?

时间:2008-12-19 18:37:01

标签: database performance dataset benchmarking

我正在寻找一些大型公共数据集,特别是:

  1. 已匿名化的大型示例Web服务器日志。

  2. 用于数据库性能基准测试的数据集。

  3. 任何其他指向大型公共数据集的链接都将受到赞赏。我已经在http://aws.amazon.com/publicdatasets/

    了解亚马逊的公共数据集

13 个答案:

答案 0 :(得分:29)

  

1。已匿名化的大型示例Web服务器日志。

这些工作从:

开始

有比这些更多的数据集(请参阅其他答案的全部内容),但这是符合您原始标准的最低水果。作为奖励,如果您有他们可能知道的具体需求,他们会a contact link

  

2。用于数据库性能基准测试的数据集。

这听起来有点用词不当,因为您要求提供描述well-defined algorithmic problems的经验数据集。具体来说,听起来您正在尝试使用明确定义的规范化关系数据来查找可用于实时测试和基准测试各种数据库系统的数据集,这些数据可用作一组测试用例来确定最有效的解决方案,满足您的需求。

我不同意这种做法。而不是找到一连串的数据库系统及其固定的实现,最好是探索这些系统的algorithmic guarantees作为您的第一个调用端口。一旦确定了满足您需求的算法约束,您就可以研究一组固定解决方案,您可以根据效率进行基准测试,例如索引,排序,搜索,插入,删除和检索。

Wikipedia提供a terse article on database testing concepts,您可以使用它来确定和编写用于基准测试性能的测试用例。例如,您可以使用不可知的数据访问接口(如JDBCJDBC Benchmark)来确定每个操作的相对时间。从这里开始,您可以找到正确的解决方案。

简而言之,首先转到the research以确定数据库保证。一旦确定了一组候选解决方案,您可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来选择这些解决方案。

答案 1 :(得分:24)

基于Quora answers和我学习中的个人收藏,在GitHub上创建并更新了awesome-public-datasets存储库:

以下是此列表的快照版本。有关最新列表,请访问Github

从博客,答案和用户响应中收集和整理此公共数据源列表。下面列出的大多数数据集都是免费的,但有些则不是。此列表来自https://github.com/caesar0301/awesome-public-datasets

气候

经济

金融

生物学

物理

医疗保健

地球空间

运输

政府

数据挑战

机器学习

自然语言

图像处理

时间序列

社会科学

复杂网络

计算机网络

数据SE

Public Doamins

补充收藏

答案 2 :(得分:13)

答案 3 :(得分:9)

只是一个想法:

答案 4 :(得分:3)

对于Web服务器日志,您始终可以根据需要的格式生成它们。如果您要针对它测试代码等,则必须根据您要存储/解析的字段进行定制。

对于用于数据库性能基准测试的数据集,您可能希望查看可以为您生成数据的工具。红门有一个伟大的,没有太多的钱。

答案 5 :(得分:3)

Google Fusion Tables有一些。

http://tables.googlelabs.com/

答案 6 :(得分:1)

可用的数据集here

答案 7 :(得分:1)

Kaggle.com经常遇到数据挑战。这些数据集涵盖了广泛的领域:医疗服务提供者数据和信用记录信息。也许你所追求的是什么。

答案 8 :(得分:1)

http://Quandl.com从互联网上收集了超过1000万个数据集。这个资源的优点在于它提供了一种访问所有数据的方法。该网站有一个免费的Excel插件或R,Python,Ruby等库。

答案 9 :(得分:0)

答案 10 :(得分:0)

我很惊讶没有人提到Google N-Grams。更多关于N-Grams的信息 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

答案 11 :(得分:0)

也许有些数据库用作人脸识别算法的训练集:face-rec.org

答案 12 :(得分:0)

嗯,这个是新的,背后有一个挑战:

Million song dataset challenge