我想使用pyspark从Hadoop文件系统中读取DOCX / PDF文件,目前我使用的是pandas API。但是在熊猫中我们有一些限制,我们只能读取CSV,JSON,XLSX和HDF5。它不支持任何其他格式。 目前我的代码是:
import pandas as pd
from pyspark import SparkContext, SparkConf
from hdfs import InsecureClient
conf = SparkConf().setAppName("Random")
sc = SparkContext(conf = conf)
client_hdfs = InsecureClient('http://192.00.00.30:50070')
with client_hdfs.read('/user/user.name/sample.csv', encoding = 'utf-8') as reader:
df = pd.read_csv(reader,index_col=0)
print df
我可以使用上面的代码读取CSV,任何其他可以解决DOC / PDF问题的API吗?