如何使用上下文表作为模式将文本文件保存到配置单元

时间:2017-07-26 11:17:34

标签: hadoop apache-spark spark-dataframe bigdata

我有许多文本格式的项目报告(word和pdf)。这些文件包含我想要提取的数据;如引用,关键词,提到的名字.......

我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)是可能的吗?

您是否可以与我分享有关如何处理这些文件的任何想法?

1 个答案:

答案 0 :(得分:0)

据我了解,您需要使用Tika解析文件,并按照here所述手动创建自定义架构。

如果这有帮助,请告诉我。欢呼声。