我已将json文件调用到HDFS(在虚拟机上运行的HDF 2.4 Sandbox),现在我想使用Pig来操作文件中的数据。
我开始尝试定义一个模式,使用JsonLoader将文件传递给Pig,但是当我读到Pig无法处理多行文件的地方时我放弃了这个,我怀疑这可能是(这是我第一次使用json和数据文件结构非常复杂 - 它是5天的3小时天气预报数据,来自Met Office api(http://www.metoffice.gov.uk/datapoint/product/uk-3hourly-site-specific-forecast)。
我的问题是:什么是将这些数据简单地输入Pig的最快,最简单的方法,以便我可以开始操作它?
我偶然发现我的手臂运行以下脚本来加载文件,但由于文件只有4.3Kb,并且脚本现在运行超过15分钟而没有生成结果或日志,我总结这种方法并没有成功:
jdata = LOAD '/user/maria_dev/MetFiles/matched/BolsoverSite.json' USING PigStorage(',')
非常感谢任何指导感谢。