具有明确数字答案的问题数据库

时间:2010-04-19 04:12:45

标签: parsing language-agnostic

我(和合作黑客)正在构建一种受此博客帖子启发的琐事游戏: http://messymatters.com/calibration。 我们的想法是给出置信区间并学习如何校准(当你“90%确定”时,你应该在90%的时间内做到正确)。

因此,我们正在寻找具有明确数字答案的数千个问题。 而且,他们不应该太无聊。 有很多随机统计数据 - 例如,不同国家的封闭水域 - 会让游戏麻木不仁。 像经典电影的发行日期之类的东西更有趣(对大多数人来说)。

我们发现的其他有趣的内容包括奥运会记录,不同职业的收入中位数,着名发明的日期和名人年龄。 顺便说一句,刮掉上面的东西是我提出这个问题的理由: Scrape HTML tables from a given URL into CSV

所以,如果你知道有趣的数字事实的其他来源(以可解析的形式),我渴望得到它们的指针。 谢谢!

11 个答案:

答案 0 :(得分:5)

视频游戏类别

vgchartz.com有各种视频游戏和硬件性能图表。

示例查询:

有足够的数据可以解决以下问题:

  • Y年/销售第一周销售了多少硬件/标题X?
  • 标题X超出标题Y(在各自的前N周销售中)按多少/什么比例?

流行音乐类别

billboard.com就是你所需要的。

维基百科链接

除销售数据外,您还可以询问有关图表位置的查询,例如:

  • 在图表Z的类别Y中,歌曲X放在哪里/艺术家X有多少首歌曲?

充分利用您的数据

您可以从大多数列表中获得明确的数字Q / A.例如,像TIME.com All Time 100 Novels

这样的列表

可以提出的一些通用问题是:

  • 在给定时间段内写了多少?
    • 十年,一年,乔治布什总统,9/11之前等等。
  • Title X和Title Y之间的排名差距是多少?
    • 这样的成对查询确实可以充分利用您的数据!

您可以使用任何给定的前100个列表执行此操作:


历史类别

historyorb.com只是一个例子。 URL和HTML非常易于使用。

有许多类似的网站,例如brainyhistory.com

您还可以使用这些日期与其他数据“交叉”(例如上面的前100个小说示例)。


电影类别

The Internet Movie Database当然是 互联网电影数据库!

答案 1 :(得分:3)

你需要的所有统计数据......


网上有几个“开放式”数据库。

  

http://unstats.un.org/unsd/databases.htm

只需从他们那里提取数据,就可以了!

注意:您可能希望在提取每个问题后对其进行缓存,以备将来重复使用(不同的用户)。

古德纳克!!

CVS @ 2600Hertz

答案 2 :(得分:2)

Box Office Mojo对于有多少着名电影的收入来说非常棒。我认为人们觉得很有趣。

答案 3 :(得分:2)

你可以尝试敲门:

Pioneer Grants:Pioneer Grants适用于初创公司和其他开发人员使用Wolfram | Alpha API构建创新应用程序。

http://products.wolframalpha.com/api/pricing.html

答案 4 :(得分:2)

那么,如果您想提出诸如“ X国家的人口是什么?”之类的问题,“欧洲最高的山峰有多高?”那么这个可能是你的选择:

http://www.dbis.informatik.uni-goettingen.de/Mondial/

  

已编译MONDIAL数据库   来自地理网络数据源   列出如下:

     
      
  • CIA World Factbook,
  •   
  • 全球统计的前身,由Johan van收集   der Heijden。
  •   
  • 坐标的其他文字来源,
  •   
  • 国际地图集由Kümmerly& Frey,Rand McNally和Westermann,
  •   
  • 以及卡尔斯鲁厄TERRA数据库的一些地理数据。
  •   

答案 5 :(得分:2)

体育琐事可以很好地适应这一点,因为你可以提出大量的问题:1)有明确的数字答案和2)有些人真正关心的问题。我知道downloadable database for baseball statistics is out there,如果你找不到类似的其他主要(也不是那么重要)的体育数据库,我会感到惊讶。你仍然需要挑选,因为即使对于铁杆体育迷来说也有太多的细节(“1923年有多少罢工[模糊的投手]编译?”),但它应该是一个丰富的环境我的。

答案 6 :(得分:1)

维基百科有许多重复出现的号码(通常在旁边栏中),例如,许多(如果不是大多数)电视节目页面都有链接到剧集列表并且链接有剧集计数。

答案 7 :(得分:1)

本游戏中的问题非常适合我们的想法:

http://en.wikipedia.org/wiki/Wits_and_Wagers

我想知道Wits&的创作者是怎样的。 Wagers收集了这些问题......

答案 8 :(得分:1)

世界事实(犯罪,经济,食品等......)

http://www.nationmaster.com/facts.php

你知道吗? (事实|快速事实|动物|历史|列表|新闻|恐惧症)

http://didyouknow.org/

答案 9 :(得分:1)

板球统计。受到全球数百万人的欢迎,并且可以从http://www.cricinfo.com的令人难以置信的数据库访问。极力推荐。

CIA事实簿:https://www.cia.gov/library/publications/the-world-factbook/

有关于国家等的各种有用的数字事实。

答案 10 :(得分:1)

WolframAlpha可能是在各种类别中查找数值数据的好地方。