应用错误收集

猪在一台机器上

时间：2015-04-06 02:48:26

标签： hadoop apache-pig etl

想象一下，我有一个100 MM记录的文件，我想用猪来争论它。我没有集群，但出于生产率原因，我仍然希望使用PIG。我可以在一台机器上使用PIG，还是性能不佳？

Pig会在单个机器中模拟MR作业，还是使用自我后端引擎来执行该过程？

1 个答案:

答案 0 :(得分：2)

Hadoop处理100MM记录的单机肯定不会给你带来性能。对于开发/测试目的，您可以使用具有少量/适量数据的单台机器，但不能用于生产当您向群集添加更多节点时，Hadoop会线性扩展它的性能单机也可以作为集群 PIG可以在local和mapreduce两种模式下运行在本地模式下没有hadoop守护进程和hdfs 在mapreduce中，您的pig脚本将转换为MR Jobs，然后执行。

希望它有所帮助！

存储输出到单个CSV？
在单个节点上安装PIG
Apache Pig：将属性列表合并为一个元组
获得单个操作的执行时间
如何逃避猪脚本中的单引号
Pig在单个文件中写入太多记录
在虚拟环境中运行单个应用程序
猪在一台机器上
在单个文本file_Apache Pig中获取输出
PIG中单条记录的多条记录

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？