test-on Spark without internet
我正在使用 Tika 库来解析存储在 Hadoop群集中的文档。
我使用以下代码: -
import tika
import urllib3
from tika import parser
data = parser.from_file("hdfs://localhost:50070/user/sample.txt")
在linux上,如果我给出一个本地路径,tika
能够解析但是对于hdfs路径,我得到了一个
Spark I/O error: No such file or directory.
任何线索/替代方案都会非常有用。
答案 0 :(得分:0)
当我检查源代码时,Tika python模块不支持从HDFS读取。你应该使用下面的命令将tika jar添加到pyspark / spark-shell并检查Tika Usage Documentation以了解如何解析文件(parser.from_file是不能与HDFS一起使用的Python实现):
./pyspark --jars /path/to/your/local/tika/jar/file
或
./spark-shell --jars /path/to/your/local/tika/jar/file
请注意,从HDFS读取数据的端口号为9000或8020而不是50070.