文件系统下s3的Tachyon配置

时间:2014-10-29 22:49:17

标签: alluxio

我正在尝试在S3文件系统上设置Tachyon。对于HDFS,tachyon有一个名为TACHYON_UNDERFS_HDFS_IMPL的参数,该参数设置为“org.apache.hadoop.hdfs.DistributedFileSystem”。有谁知道S3是否存在这样的参数?如果是这样,它的价值是什么?

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

您提到的Hadoop FS类型(org.apache.hadoop.hdfs.DistributedFileSystem)只是界面,它符合您的需求。相反,Tachyon基于使用 TACHYON_UNDERFS_ADDRESS 配置的uri远程dfs中指定的方案创建s3n FileSystem实现。 对于亚马逊,您需要指定以下内容:

export TACHYON_UNDERFS_ADDRESS=s3n://your_bucket

注意" s3n",not" s3"这里。

其他设置您需要使用s3(另请参阅 Error in setting up Tachyon on S3 under filesystemhttp://tachyon-project.org/Setup-UFS.html):

    $ {TACHYON} /bin/tachyon-env.sh中的
  1. :将密钥ID和密钥添加到 TACHYON_JAVA_OPTS

    -Dfs.s3n.awsAccessKeyId=123
    -Dfs.s3n.awsSecretAccessKey=456 
    
  2. 发布s3n Hadoop FileSystem实现所需的额外依赖项,版本取决于安装的Hadoop版本。它们是:commons-httpclients- *和jets3t- *。 为此,发布上面链接之一中提到的TACHYON_CLASSPATH。这可以通过在导出CLASSPATH之前在$ {TACHYON} /libexec/tachyon-config.sh中添加 TACHYON_CLASSPATH 的导出来完成:

    export TACHYON_CLASSPATH=~/.m2/repository/commons-httpclient/commons-httpclient/3.1/commons-httpclient-3.1.jar:~/.m2/repository/net/java/dev/jets3t/jets3t/0.9.0/jets3t-0.9.0.jar
    
    export CLASSPATH="$TACHYON_CONF_DIR/:$TACHYON_JAR:$TACHYON_CLASSPATH":
    
  3. 启动Tachyon群集:

    ./bin/tachyon format
    ./bin/tachyon-start.sh local 
    
  4. 通过网络界面检查其可用性: http://localhost:19999/

    日志中的

        ${TACHYON}/logs
    
    1. 您的 core-site.xml 应包含以下部分,以确保您与Tachyon集成(有关scala的配置,请参阅Spark参考http://tachyon-project.org/Running-Spark-on-Tachyon.html

      • fs.defaultFS - 指定Tachyon主控主机端口(以下为默认值)
      • fs.default.name - fs的默认名称,与之前相同
      • fs.tachyon.impl - Tachyon的hadoop.FileSystem实施提示
      • fs.s3n.awsAccessKeyId - 亚马逊密钥ID
      • fs.s3n.awsSecretAccessKey - 亚马逊密钥

         <configuration>
           <property>
             <name>fs.defaultFS</name>
             <value>tachyon://localhost:19998</value>
           </property>
           <property>
             <name>fs.default.name</name>
             <value>tachyon://localhost:19998</value>
             <description>The name of the default file system.  A URI 
                          whose scheme and authority determine the  
                          FileSystem implementation.                    
             </description>
           </property>
           <property>
             <name>fs.tachyon.impl</name>
             <value>tachyon.hadoop.TFS</value>
           </property>
           ...
           <property>
             <name>fs.s3n.awsAccessKeyId</name>
             <value>123</value>
           </property>
           <property>
             <name>fs.s3n.awsSecretAccessKey</name>
             <value>345</value>
           </property>
           ...
         </configuration>
        
    2. 请参阅使用tachyon方案和主主机端口的任何路径:

      tachyon://master_host:master_port/path
      

      默认Tachyon主机端口示例:

      tachyon://localhost:19998/remote_dir/remote_file.csv