无法使用URL协议处理程序从HDFS获取数据

时间:2013-11-13 18:25:13

标签: java eclipse apache maven hadoop

我在java中运行以下程序时遇到问题(我是java的初学者)。这个程序使用HDFS特定的URLstreamhandlerfactory来使用适当的协议处理程序来访问HDFS。在eclipse中,它没有显示任何错误。我在构建路径中放了hadoop-common-2.2.0.jar。

package org.hdfs.prog;

//cc URLCat Displays files from a Hadoop filesystem on standard output using a //URLStreamHandler



import java.io.InputStream;

import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;


public class URLCat {

    static {
        URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
    }

    public static void main(String[] args) throws Exception {
        InputStream in = null;
        try {
            in = new URL(args[0]).openStream();
            IOUtils.copyBytes(in, System.out, 4096, false);
        } finally {
            IOUtils.closeStream(in);
        }
    }
}

但是当我运行它时,我发现类未找到错误,如下所示。

这清楚地表明它在运行时没有找到一个类“org.apache.commons.logging.LogFactory”。为了解决这个问题,我下载了包含“org.apache.commons.logging”软件包的jar文件。然后我再次运行代码另一个类找不到错误。

是否有任何解决方案可以提前告诉我什么是我需要的运行时依赖jar文件?请帮帮我。

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
    at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:165)
    at org.apache.hadoop.fs.FsUrlStreamHandlerFactory.<init>(FsUrlStreamHandlerFactory.java:54)
    at org.hdfs.prog.URLCat.<clinit>(URLCat.java:14)
Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
    at java.net.URLClassLoader$1.run(URLClassLoader.java:217)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:205)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:321)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:294)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:266)
    ... 3 more
Could not find the main class: org.hdfs.prog.URLCat. Program will exit.

1 个答案:

答案 0 :(得分:2)

我建议你使用像Maven这样的构建工具。在pom.xml中指定hadoop工件时,将下载其所有直接和间接依赖项。 Hadoop有很多依赖关系,一个接一个地下载所有的jar都很费时间。

您只需要将maven依赖项添加到您的pom.xml,所有其他依赖项将自动下载:

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-core</artifactId>
    <version>0.20.2</version>
</dependency>