我可以构建一个包含数百万个JSON blob文档的hive表

时间:2014-07-05 08:16:33

标签: xml json azure hadoop hive

我正试图了解Windows Azure中的大数据。

作为一个学习项目,我想使用UK Companies House数据作为测试数据源。这给了我大约350万条公司数据记录,如下所示: http://data.companieshouse.gov.uk/doc/company/02050399

正如您所看到的那样,数据以多种格式呈现,而不是出于其他原因我想使用JSON(但是如果有好处的话,很乐意使用XML或任何其他格式)

显然,我不想直接向公司查询,我可能想要将这些数据与其他数据(例如推文)一起用于大型公司搜索工具。

所以,我尝试使用存储表,但发现这不起作用,因为我想对所有属性进行自由文本搜索,而不仅仅是分区和行键。

现在我在思考,是否可以/应该将每个公司记录存储为Azure blob存储中的blob作为单独的JSON文件,然后在所有数百万个JSON文档中创建一个Hive表。

让我们假设我可能希望将来使用与公司相关的其他“情报”扩展JSON文档,因此每个文档都可能变得非常大。

  1. 我可以使用所有这些JSON文档作为源
  2. 来创建此规模的表
  3. 有更好的方法吗?
  4. 我欢迎有关此问题的替代方法的想法,意见和建议。

    此致

2 个答案:

答案 0 :(得分:0)

在这种情况下,Hive不太可能优于SQL服务器。数据太小了。

因此,除非您真的想了解HDInsight或Hive,否则我会选择MS-SQL数据库。

答案 1 :(得分:0)

如果您想进行全文搜索,我建议您查看Lucene(.Net),因为它专门用于全文搜索。

您必须将文档(json文件)放在Azure Blob中,因此Lucene可以将其编入索引。除此之外,您可以将一些元数据放入SQL Server或Azure表(这取决于您尝试做什么),指向带有数据的blob。