在emr上运行mahout jar会为s3n:// * / input link

时间:2015-07-14 00:02:18

标签: java apache hadoop mahout emr

我需要在emr上运行 seqdirectory 命令。 我创建了一个Fatjar(没有指定任何主类),包括mahout-integration-0.9,mahout-core-0.9和commons-cli-2.0-mahout jar文件。

并给出了以下jar参数 -

org.apache.mahout.text.SequenceFilesFromDirectory -i s3n:// mybucket / dataset / 2013-04-20-22 / txt / -o s3n:// mybucket / sequence_files / -c UTF-8

它在stderr上给出错误的FS消息 -

线程中的异常" main" java.lang.IllegalArgumentException:错误的FS:s3n:// trecdata / dataset / 2013-04-20-22 / txt,预期:hdfs://172.31.27.158:9000     在org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:647)     at org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:191)     在org.apache.hadoop.hdfs.DistributedFileSystem.access $ 000(DistributedFileSystem.java:102)     在org.apache.hadoop.hdfs.DistributedFileSystem $ 17.doCall(DistributedFileSystem.java:1124)     在org.apache.hadoop.hdfs.DistributedFileSystem $ 17.doCall(DistributedFileSystem.java:1120)     在org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)     在org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1120)     at org.apache.mahout.text.SequenceFilesFromDirectory.runMapReduce(SequenceFilesFromDirectory.java:162)     at org.apache.mahout.text.SequenceFilesFromDirectory.run(SequenceFilesFromDirectory.java:91)     在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)     在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)     at org.apache.mahout.text.SequenceFilesFromDirectory.main(SequenceFilesFromDirectory.java:65)     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)     at java.lang.reflect.Method.invoke(Method.java:606)     在org.apache.hadoop.util.RunJar.main(RunJar.java:212)

,这在syslog上 -

2015-07-13 21:34:18,684 INFO org.apache.mahout.common.AbstractJob(main):命令行参数:{ - charset = [UTF-8], - chunkSize = [ 64], - endPhase = [2147483647], - fileFilterClass = [org.apache.mahout.text.PrefixAdditionFilter], - input = [s3n:// trecdata / dataset / 2013-04-20-22 / txt / ], - keyPrefix = [], - method = [mapreduce], - output = [s3n:// trecdata / sequence_files /], - startPhase = [0], - tempDir = [temp]} 2015-07-13 21:34:19,103 INFO org.apache.hadoop.conf.Configuration.deprecation(main):不推荐使用mapred.input.dir。而是使用mapreduce.input.fileinputformat.inputdir 2015-07-13 21:34:19,103 INFO org.apache.hadoop.conf.Configuration.deprecation(main):不推荐使用mapred.compress.map.output。而是使用mapreduce.map.output.compress 2015-07-13 21:34:19,103 INFO org.apache.hadoop.conf.Configuration.deprecation(main):不推荐使用mapred.output.dir。而是使用mapreduce.output.fileoutputformat.outputdir

0 个答案:

没有答案
相关问题