社交媒体数据如何构建非结构化数据?

时间:2015-02-08 22:36:53

标签: hadoop bigdata data-mining

我最近开始阅读大数据,以及如何使用像hadoop或BigInsights这样的工具来管理结构化和非结构化数据。

社交媒体分析可以在BigInsights上完成,它需要非结构化数据并相应地分析/构建它。

这让我感到疑惑,社交媒体数据是如何构建的?例如,可以使用Twitter REST API调用您可以在推文上收到的信息,并以结构化的JSON格式返回给您。

社交媒体数据是否已经构建完毕?如果是这样,为什么需要一个主要管理非结构化数据的平台?

2 个答案:

答案 0 :(得分:1)

它不仅仅是关于获取推文。数据的真正价值在于了解推文内容。考虑Facebook,我们可以评论任何图片或视频。我们需要一个平台来了解视频的所有评论是积极的,或者有多少是雪橇,或者有多少评论是关于它的真实反馈。有多少人提出建议,以便做一个更好的建议。此外,您还需要知道视频共享和喜欢的次数。所有分享的人都是谁,不喜欢或喜欢它的人。可以收集如此多种类的数据,因此这些都称为非结构化数据。

答案 1 :(得分:1)

有些人也将“半结构化”区分开来。

但重点是能够查询数据。是的,推文等通常有一些结构。但它对分析没有帮助

鉴于一个丑陋的SQL架构,您确实可以运行像

这样的查询
 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么数据最好被认为是非结构化的:你不会将它压缩成关系模式。

但是,请注意大数据的流行语宾果游戏。 “支持非结构化数据”实际上意味着“不会从数据中的结构中受益(通过使用索引),而是每次都重新读取数据”