使用Hadoop将word文档转换为pdf

时间:2009-12-29 11:58:31

标签: hadoop

如果我想将1000个单词文件转换为pdf,那么使用Hadoop来解决这个问题是否有意义?使用Hadoop比使用多个具有作业队列的EC2实例有什么优势吗?

此外,如果有1个文件和10个空闲节点,那么hadoop会分割文件并将其发送到10个节点,或者文件是否会被发送到1个节点而9个空闲?

3 个答案:

答案 0 :(得分:2)

在这个用例中使用hadoop没有多大优势。让竞争的消费者从队列中读取并生成输出将更容易设置并且可能更有效。

Hadoop不会自动拆分不同节点上的文档和处理部分。虽然如果你有一个非常大(长达数千页),那么Hadoop用例是有意义的 - 但只有当在一台机器上生成pdf的时间很重要时。

地图任务可以打印几千页,并且reduce任务将PDF合并到一个文档中 - 尽管如果它非常大,读取生成的文件可能很难阅读。

答案 1 :(得分:1)

  

说我是否要转换1000个单词   文件到pdf然后将使用Hadoop   接近这个问题有道理吗?   使用Hadoop会有什么优势   简单地使用多个EC2   有作业队列的实例?

我认为这两种工具都可以完成此任务,因此它取决于您计划在转换后对文档执行的操作。 Derek Gottfrid在纽约时报famously发现Hadoop是大规模文档转换的有用工具,因此它肯定属于Hadoop表现良好的任务领域。

  

此外,如果有1个文件,10个免费   然后节点将hadoop拆分文件   并将其发送到10个节点或将   该文件只发送到1个节点   9闲着吗?

这取决于您使用的InputFormat。正如您在文档中看到的,您可以指定如何计算“InputSplits”,其中可能包括将大型文档拆分为块。

祝你选择这个问题的工具好运!

此致 杰夫

答案 2 :(得分:0)

你在说几千?如果这是一次性批处理,我会将它设置在一台机器上并让它运行,你会惊讶我认为你可以多快地将1000个文档转换为PDF,即使你需要运行任务几天,如果它是一次性转换,那么就不需要像Hadoop这样的并发症。如果你不断转换1000个文档,那么它可能值得设置其他东西。