应用错误收集

如何使用上下文表作为模式将文本文件保存到配置单元

时间：2017-07-26 11:17:34

标签： hadoop apache-spark spark-dataframe bigdata

我有许多文本格式的项目报告（word和pdf）。这些文件包含我想要提取的数据;如引用，关键词，提到的名字.......

我想用Apache spark处理这些文件并将结果保存到hive，使用dataframe的强大功能（使用上下文表作为模式）是可能的吗？

您是否可以与我分享有关如何处理这些文件的任何想法？

1 个答案:

答案 0 :(得分：0)

据我了解，您需要使用Tika解析文件，并按照here所述手动创建自定义架构。

如果这有帮助，请告诉我。欢呼声。