如何使用pyspark从HDFS读取docx / pdf文件?

时间:2018-03-19 06:55:38

标签: python pandas dataframe pyspark hdfs

我想使用pyspark从Hadoop文件系统中读取DOCX / PDF文件,目前我使用的是pandas API。但是在熊猫中我们有一些限制,我们只能读取CSV,JSON,XLSX和HDF5。它不支持任何其他格式。 目前我的代码是:

import pandas as pd
from pyspark import SparkContext, SparkConf
from hdfs import InsecureClient

conf = SparkConf().setAppName("Random")
sc = SparkContext(conf = conf)

client_hdfs = InsecureClient('http://192.00.00.30:50070')
with client_hdfs.read('/user/user.name/sample.csv', encoding = 'utf-8') as reader:
  df = pd.read_csv(reader,index_col=0)
  print df 

我可以使用上面的代码读取CSV,任何其他可以解决DOC / PDF问题的API吗?

0 个答案:

没有答案