应用错误收集

大数据 - 数据来自哪里？

时间：2013-05-22 05:15:36

标签： hadoop twitter bigdata

这可能看起来像一个愚蠢的问题，但是关于大数据的所有嗡嗡声，我很好奇大数据中使用的典型数据集是如何获取的？ Twitter关键字似乎是一个常见的来源 - 但是分析的巨大的Twitter Feed文件的起源是什么？我看到了一个例子，其中分析了与奥巴马和罗姆尼等选举相关的词语。有人查询过Twitter API并有效下载了数TB的推文吗？ Twitter是否甚至希望人们更难打他们的服务器？或者这些数据是否已经由进行分析的公司“拥有”。这可能听起来很奇怪，但我见过的大多数文章对这些基本的物理步骤都很模糊。任何解决这些基本问题的优秀文章或教程的链接都将非常受欢迎

2 个答案:

答案 0 :(得分：3)

以下是获取大数据来源的一些想法：

正如您所指出的那样Twitter是一个抓取数据的好地方，并且有很多有用的分析要做。如果您正在进行the online course about Data Science其中一项任务实际上是如何从Twitter获取实时数据进行分析，那么我建议您查看this assignment，因为获取实时Twitter数据的过程非常详细。您可以让实时流运行数天，它可能会在运行的时间内生成数千兆字节的数据。
如果您有网站，则可以获取Web服务器日志。如果它是一个小型网站可能不是很多，但对于看到大量流量的大型网站来说，这是一个巨大的数据来源。想想如果你有StackOverflow Web服务器日志，你可以做些什么......
您可以在Marinexplore找到的海洋学数据，如果您想分析海洋数据，可以下载并分析自己的大量数据集。
网络抓取数据，例如搜索引擎使用的数据。您可以在{3}处看到来自网络抓取的一些开放数据，这些数据已经在Amazon S3上，因此您可以在其上运行Hadoop作业！您还可以从维基百科Common Crawl获取数据。
现在可以大规模获得基因组数据，您可以通过FTP在here上找到基因组数据。
...

更一般地说，如果您不仅仅是在Twitter，而是在更广泛的背景下查看大数据，我会建议您查看the 1000 genomes project，其中包含各种主题的大量数据集。

答案 1 :(得分：0)

大多数企业都会从Twitter Certified数据合作伙伴处获取社交数据。

注意：我为Gnip工作。