大数据 - 数据来自哪里?

时间:2013-05-22 05:15:36

标签: hadoop twitter bigdata

这可能看起来像一个愚蠢的问题,但是关于大数据的所有嗡嗡声,我很好奇大数据中使用的典型数据集是如何获取的? Twitter关键字似乎是一个常见的来源 - 但是分析的巨大的Twitter Feed文件的起源是什么?我看到了一个例子,其中分析了与奥巴马和罗姆尼等选举相关的词语。有人查询过Twitter API并有效下载了数TB的推文吗? Twitter是否甚至希望人们更难打他们的服务器?或者这些数据是否已经由进行分析的公司“拥有”。这可能听起来很奇怪,但我见过的大多数文章对这些基本的物理步骤都很模糊。任何解决这些基本问题的优秀文章或教程的链接都将非常受欢迎

2 个答案:

答案 0 :(得分:3)

以下是获取大数据来源的一些想法:

  • 正如您所指出的那样Twitter是一个抓取数据的好地方,并且有很多有用的分析要做。如果您正在进行the online course about Data Science其中一项任务实际上是如何从Twitter获取实时数据进行分析,那么我建议您查看this assignment,因为获取实时Twitter数据的过程非常详细。您可以让实时流运行数天,它可能会在运行的时间内生成数千兆字节的数据。
  • 如果您有网站,则可以获取Web服务器日志。如果它是一个小型网站可能不是很多,但对于看到大量流量的大型网站来说,这是一个巨大的数据来源。想想如果你有StackOverflow Web服务器日志,你可以做些什么......
  • 您可以在Marinexplore找到的海洋学数据,如果您想分析海洋数据,可以下载并分析自己的大量数据集。
  • 网络抓取数据,例如搜索引擎使用的数据。您可以在{3}处看到来自网络抓取的一些开放数据,这些数据已经在Amazon S3上,因此您可以在其上运行Hadoop作业!您还可以从维基百科Common Crawl获取数据。
  • 现在可以大规模获得基因组数据,您可以通过FTP在here上找到基因组数据。
  • ...

更一般地说,如果您不仅仅是在Twitter,而是在更广泛的背景下查看大数据,我会建议您查看the 1000 genomes project,其中包含各种主题的大量数据集。

答案 1 :(得分:0)

大多数企业都会从Twitter Certified数据合作伙伴处获取社交数据。

注意:我为Gnip工作。