hadoop中的不同文件进程

时间:2015-03-29 03:30:28

标签: hadoop amazon-web-services hive bigdata elastic-map-reduce

我已经安装了Hadoop和hive。我可以使用hive处理和查询xls,tsv文件。我想处理其他文件,如docx,pdf,ppt。我怎样才能做到这一点?是否有任何单独的过程来处理AWS中的这些文件?请帮我。

1 个答案:

答案 0 :(得分:1)

与任何Hadoop平台一样,使用这些文件没有任何区别。为了便于访问和持久存储 - 您可以将这些文件放在S3中。