我正试图了解Windows Azure中的大数据。
作为一个学习项目,我想使用UK Companies House数据作为测试数据源。这给了我大约350万条公司数据记录,如下所示: http://data.companieshouse.gov.uk/doc/company/02050399
正如您所看到的那样,数据以多种格式呈现,而不是出于其他原因我想使用JSON(但是如果有好处的话,很乐意使用XML或任何其他格式)
显然,我不想直接向公司查询,我可能想要将这些数据与其他数据(例如推文)一起用于大型公司搜索工具。
所以,我尝试使用存储表,但发现这不起作用,因为我想对所有属性进行自由文本搜索,而不仅仅是分区和行键。
现在我在思考,是否可以/应该将每个公司记录存储为Azure blob存储中的blob作为单独的JSON文件,然后在所有数百万个JSON文档中创建一个Hive表。
让我们假设我可能希望将来使用与公司相关的其他“情报”扩展JSON文档,因此每个文档都可能变得非常大。
我欢迎有关此问题的替代方法的想法,意见和建议。
此致
答案 0 :(得分:0)
因此,除非您真的想了解HDInsight或Hive,否则我会选择MS-SQL数据库。
答案 1 :(得分:0)
如果您想进行全文搜索,我建议您查看Lucene(.Net),因为它专门用于全文搜索。
您必须将文档(json文件)放在Azure Blob中,因此Lucene可以将其编入索引。除此之外,您可以将一些元数据放入SQL Server或Azure表(这取决于您尝试做什么),指向带有数据的blob。