python - 尝试在apache spark中解析word文档时出错

尝试在apache spark中解析word文档时出错

时间：2016-01-19 07:02:52

标签： python windows apache-spark

我正在尝试解析apache spark中的多个单词doc文件，当我通过spark运行脚本时，让我说一个单词计数作为示例它给我一个错误，如下所示： unicodeencodeerror'ascii'编解码器无法编码字符u'ufffd'序数不在128范围内。

我们可以在spark中解析microsoft word文档吗？否则，有相同的解决方法。

感谢。

1 个答案:

答案 0 :(得分：0)

除了@Vince建议，作为一般规则，Spark需要一些东西来解析这样的二进制文档到文本中。您可以将Apache Tika（https://tika.apache.org/）视为可用于将Word（或PDF等）文档解析为文本的库。您必须从程序中的转换步骤调用它。我没试过这个，但也许Interwebs上的其他人就像这个项目https://github.com/scotthaleen/spark-hdfs-tika一样。

解析word docs heroku / s3
尝试使用名称中包含冒号的sc.textFile加载文件时出错
尝试在apache spark中解析word文档时出错
尝试启动apache spark master时出错
尝试在独立模式下旋转火花时出错
尝试查询嵌套列时，Spark Data框架抛出错误
在yarn-cluster中spark-submit parse [application-arguments]错误
尝试使用sbt导入spark时出错
尝试保存pyspark数据框时发生错误
尝试在PySpark中容纳MultilayerPerceptronClassifier时出现值错误消息

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？