这可能看起来像一个愚蠢的问题,但是关于大数据的所有嗡嗡声,我很好奇大数据中使用的典型数据集是如何获取的? Twitter关键字似乎是一个常见的来源 - 但是分析的巨大的Twitter Feed文件的起源是什么?我看到了一个例子,其中分析了与奥巴马和罗姆尼等选举相关的词语。有人查询过Twitter API并有效下载了数TB的推文吗? Twitter是否甚至希望人们更难打他们的服务器?或者这些数据是否已经由进行分析的公司“拥有”。这可能听起来很奇怪,但我见过的大多数文章对这些基本的物理步骤都很模糊。任何解决这些基本问题的优秀文章或教程的链接都将非常受欢迎
答案 0 :(得分:3)
以下是获取大数据来源的一些想法:
更一般地说,如果您不仅仅是在Twitter,而是在更广泛的背景下查看大数据,我会建议您查看the 1000 genomes project,其中包含各种主题的大量数据集。
答案 1 :(得分:0)
大多数企业都会从Twitter Certified数据合作伙伴处获取社交数据。
注意:我为Gnip工作。