尝试在apache spark中解析word文档时出错

时间:2016-01-19 07:02:52

标签: python windows apache-spark

我正在尝试解析apache spark中的多个单词doc文件,当我通过spark运行脚本时,让我说一个单词计数作为示例它给我一个错误,如下所示: unicodeencodeerror'ascii'编解码器无法编码字符u'ufffd'序数不在128范围内。

我们可以在spark中解析microsoft word文档吗?否则,有相同的解决方法。

感谢。

1 个答案:

答案 0 :(得分:0)

除了@Vince建议,作为一般规则,Spark需要一些东西来解析这样的二进制文档到文本中。您可以将Apache Tika(https://tika.apache.org/)视为可用于将Word(或PDF等)文档解析为文本的库。您必须从程序中的转换步骤调用它。我没试过这个,但也许Interwebs上的其他人就像这个项目https://github.com/scotthaleen/spark-hdfs-tika一样。