应用错误收集

我想使用pyspark从Hadoop文件系统中读取DOCX / PDF文件，目前我使用的是pandas API。但是在熊猫中我们有一些限制，我们只能读取CSV，JSON，XLSX和HDF5。它不支持任何其他格式。目前我的代码是：

import pandas as pd
from pyspark import SparkContext, SparkConf
from hdfs import InsecureClient

conf = SparkConf().setAppName("Random")
sc = SparkContext(conf = conf)

client_hdfs = InsecureClient('http://192.00.00.30:50070')
with client_hdfs.read('/user/user.name/sample.csv', encoding = 'utf-8') as reader:
  df = pd.read_csv(reader,index_col=0)
  print df

我可以使用上面的代码读取CSV，任何其他可以解决DOC / PDF问题的API吗？

如何使用pyspark从HDFS读取docx / pdf文件？

0 个答案: