Question

我正在使用 Tika 库来解析存储在 Hadoop群集中的文档。

我使用以下代码： -

import tika
import urllib3
from tika import parser

data = parser.from_file("hdfs://localhost:50070/user/sample.txt")

在linux上，如果我给出一个本地路径，tika能够解析但是对于hdfs路径，我得到了一个

Spark I/O error: No such file or directory.

任何线索/替代方案都会非常有用。

Answer 1

当我检查源代码时，Tika python模块不支持从HDFS读取。你应该使用下面的命令将tika jar添加到pyspark / spark-shell并检查Tika Usage Documentation以了解如何解析文件（parser.from_file是不能与HDFS一起使用的Python实现）：

./pyspark --jars /path/to/your/local/tika/jar/file

或

./spark-shell --jars /path/to/your/local/tika/jar/file

请注意，从HDFS读取数据的端口号为9000或8020而不是50070.

Apache Tika无法解析HDFS文件

1 个答案: