使用Pig来操作json文件

时间:2017-01-11 22:19:12

标签: json apache-pig hortonworks-sandbox

我已将json文件调用到HDFS(在虚拟机上运行的HDF 2.4 Sandbox),现在我想使用Pig来操作文件中的数据。

我开始尝试定义一个模式,使用JsonLoader将文件传递给Pig,但是当我读到Pig无法处理多行文件的地方时我放弃了这个,我怀疑这可能是(这是我第一次使用json和数据文件结构非常复杂 - 它是5天的3小时天气预报数据,来自Met Office api(http://www.metoffice.gov.uk/datapoint/product/uk-3hourly-site-specific-forecast)。

我的问题是:什么是将这些数据简单地输入Pig的最快,最简单的方法,以便我可以开始操作它?

我偶然发现我的手臂运行以下脚本来加载文件,但由于文件只有4.3Kb,并且脚本现在运行超过15分钟而没有生成结果或日志,我总结这种方法并没有成功:

jdata = LOAD '/user/maria_dev/MetFiles/matched/BolsoverSite.json' USING PigStorage(',')   

非常感谢任何指导感谢。

0 个答案:

没有答案