PIG在哪里存储它的关系

时间:2016-04-01 09:52:18

标签: apache-pig

我对以下两个陈述感到很困惑。 1)确切的LOAD语句存储这个关系(学生),是在hdfs / PIG内部存储/本地机器上???

example : student = LOAD 'HDFS:/student' using PigStorage(',');

2)如果我尝试DUMP学生;然后显示结果需要将近30-40秒,其中LOAD语句需要1-2秒....如果我们试图从猪内部存储中检索数据那么为什么会出现延迟?

如果有人能清除这种疑虑(最好是执行流程),我们将不胜感激。谢谢你。

我的环境:我正在使用VM进行学习。

1 个答案:

答案 0 :(得分:1)

LOAD不存储数据,但它只是指向文件的指针。 执行LOAD语句时,不会执行MapReduce任务。

仅在DUMPSTORE语句之后才启动MapReduce作业。 我们在输出中看到了我们的数据,我们可以确认数据已成功加载。

DUMP需要时间,因为它会禁用多个查询执行并减慢执行速度。 (如果在脚本中包含DUMP语句以进行调试,则应将其删除。)

如果要存储任何数据,可以使用STORE命令。