应用错误收集

来自外部源的高效并行Hadoop负载？

时间：2015-04-21 19:22:43

标签： bigdata hadoop2

让我们假设我有一个包含33000行的文本文件，其中每一行都是一个URL，指向一个可访问的1 GB .gz文件，可通过该文件下载HTTPS。让我们假设我有一个由Hadoop 2.6.0个节点组成的20集群。如何将所有文件加载到HDFS中的最快但又简单优雅的并行方法是什么？

到目前为止，我能够想到的最佳方法是一个bash脚本，它将通过SSH连接到运行一系列wget管道到{的所有其他节点{1}} HDFS个命令。但在这种情况下，我害怕并发。

1 个答案:

答案 0 :(得分：0)

您可以使用Java多线程执行程序服务。示例示例here

您可以使用URL读取文本文件。读取10行，然后使用java多线程开始并行下载它们。您可以将线程数定义为任意数字而不是10。

您可以使用多线程下载文件，然后使用java HDFA API将其置于HDFS中

PhoneGap：从外部源加载数据
来自外部来源的file_get_contents（）
比较来自两个不同数据源（MySQL和Hadoop）的数据的有效方法
Laravel / twitter-bootstrap网站自动加载外部源
来自外部源的高效并行Hadoop负载？
如何将数据从外部源（主要是Restful）引入HDFS？
离子2：从外部源动态加载页面
如何在html中安全加载外部源代码
模态如何从外部源加载内容？
从外部源将变量加载到.yaml文件中

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？