标签: python parsing hadoop hdfs
我想解析/提取存储在hdfs中的pdf和docx文件中存储的内容。可用的python库(如docx2txt,pdfminer)在hdfs中不起作用。如果我尝试使用本机hdfs库读取,这些文件将提供二进制输出。有没有可以执行此类任务的python库?或者我们可以转换二进制文件以提取数据的方式。