Apache Tika无法解析HDFS文件

时间:2018-03-13 12:33:30

标签: hadoop pyspark hdfs apache-tika

test-on-Unix with internet

test-on Spark without internet

我正在使用 Tika 库来解析存储在 Hadoop群集中的文档。

我使用以下代码: -

import tika
import urllib3
from tika import parser

data = parser.from_file("hdfs://localhost:50070/user/sample.txt")

在linux上,如果我给出一个本地路径,tika能够解析但是对于hdfs路径,我得到了一个

Spark I/O error: No such file or directory.

任何线索/替代方案都会非常有用。

1 个答案:

答案 0 :(得分:0)

当我检查源代码时,Tika python模块不支持从HDFS读取。你应该使用下面的命令将tika jar添加到pyspark / spark-shell并检查Tika Usage Documentation以了解如何解析文件(parser.from_file是不能与HDFS一起使用的Python实现):

./pyspark --jars /path/to/your/local/tika/jar/file

./spark-shell --jars /path/to/your/local/tika/jar/file

请注意,从HDFS读取数据的端口号为9000或8020而不是50070.