标签: hadoop apache-spark spark-dataframe bigdata
我有许多文本格式的项目报告(word和pdf)。这些文件包含我想要提取的数据;如引用,关键词,提到的名字.......
我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)是可能的吗?
您是否可以与我分享有关如何处理这些文件的任何想法?
答案 0 :(得分:0)
据我了解,您需要使用Tika解析文件,并按照here所述手动创建自定义架构。
如果这有帮助,请告诉我。欢呼声。