Question

我正在研究Yelp Dataset Challenge。数据由大型子文件组成（最多1 GB，1mm +行）。我想对它进行一些数据分析，比较文件之间的数据，例如：将审阅文件中的审核与业务文件中的业务相关联。

我完全可以自由地使用什么平台/编程语言。什么是最有效的方法，所以我可以轻松快速查找？

儿子格式非常简单。以下是一个例子。像“user_id”这样的字段是唯一的，可以与其他文件条目交叉引用。

{"votes": {"funny": 0, "useful": 2, "cool": 1}, 
"user_id": "Xqd0DzHaiyRqVH3WRG7hzg", 
"review_id": "15SdjuK7DmYqUAj6rjGowg", 
"stars": 5, "date": "2007-05-17", 
"text": "dr. goldberg offers everything i look for in a general practitioner.  he's nice and easy to talk to without being patronizing; he's always on time in seeing his patients; he's affiliated with a top-notch hospital (nyu) which my parents have explained to me is very important in case something happens and you need surgery; and you can get referrals to see specialists without having to see him first.  really, what more do you need?  i'm sitting here trying to think of any complaints i have about him, but i'm really drawing a blank.",
 "type": "review", 
 "business_id": "vcNAWiLM4dR7D2nwwJ7nCA"}

Answer 1

首先导入数据库中的所有数据。

您可以选择将事物完全展平为多个表（如果您在JSON中获得“嵌套”对象），或者您可以将某些部分保留为JSON，尤其是如果您使用可以解析/索引它的数据库（如PostgreSQL系统）。

数据库的选择完全取决于您。您可以使用经典的SQL数据库（Postgresql，Mysql，SQL Server，SQLite ......），或者您可以使用面向文档的/ noSQL数据库，例如MongoDB（它支持类似JSON的数据）。这完全取决于您将对数据做什么（以及您对此感到满意）。

然后，您可以使用数据做任何您喜欢的事情......

请注意，如果单个文件是＆gt; 1 GB，您可能必须使用一些自定义工具来执行导入，因为在内存中一次加载所有内容（通过您喜欢的语言通常的JSON解码函数）可能会有点过多。但要小心，您仍然需要正确解析所有数据，因此请避免使用简单的拆分或正则表达式。您可能需要查看此主题中列出的解决方案：Is there a streaming API for JSON?

解析大型JSON文件

1 个答案: