xml - 我可以构建一个包含数百万个JSON blob文档的hive表

我正试图了解Windows Azure中的大数据。

作为一个学习项目，我想使用UK Companies House数据作为测试数据源。这给了我大约350万条公司数据记录，如下所示： http://data.companieshouse.gov.uk/doc/company/02050399

正如您所看到的那样，数据以多种格式呈现，而不是出于其他原因我想使用JSON（但是如果有好处的话，很乐意使用XML或任何其他格式）

显然，我不想直接向公司查询，我可能想要将这些数据与其他数据（例如推文）一起用于大型公司搜索工具。

所以，我尝试使用存储表，但发现这不起作用，因为我想对所有属性进行自由文本搜索，而不仅仅是分区和行键。

现在我在思考，是否可以/应该将每个公司记录存储为Azure blob存储中的blob作为单独的JSON文件，然后在所有数百万个JSON文档中创建一个Hive表。

让我们假设我可能希望将来使用与公司相关的其他“情报”扩展JSON文档，因此每个文档都可能变得非常大。

我欢迎有关此问题的替代方法的想法，意见和建议。

此致