应用错误收集

用hadoop处理非常小的文件

时间：2013-02-12 03:15:08

标签： hadoop

我有一个关于使用hadoop处理小文件的问题。我的文件只有大约1000个左右的记录，但我希望记录大致均匀地分布在节点之间。有没有办法做到这一点？我是hadoop的新手，到目前为止，似乎所有的执行都发生在一个节点上，而不是同时发生。如果我的问题有意义或者我需要澄清什么，请告诉我。就像我说的，我对Hadoop很新，但我希望得到一些澄清。感谢。

2 个答案:

答案 0 :(得分：1)

使用NLineInputFormat并指定每个映射器要处理的记录数。这样，单个块中的记录将由多个映射器处理。

答案 1 :(得分：0)

另一个选项是将您的一个输入文件拆分为多个输入文件（在一个输入路径目录中）。然后，每个输入文件都可以分布在hdfs和地图上操作将在拥有这些输入拆分的工作机上进行。

用hadoop处理非常小的文件
Hadoop wordcount失败，文件非常大
即使使用非常小的数据集，Matplotlib也会导致复杂性超出问题
在Windows 8.1中处理高分辨率屏幕上非常小的界面图标
发布小分辨率的非常小的位图
OpenCV检测非常小的线
非常小的火花批处理
具有非常小的图像数据集的更快的R-CNN模型
木地板小文件问题
缓存文件很小

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？