标签: hadoop mapreduce bigdata apache-tika pst
我在hdfs中有pst或email文件。 现在,我想通过hadoop中最适合的组件进行文本分析。 我该如何开始。
我是否必须首先从这些文件中提取实际内容并将其存储在某处(例如在文本文件中),然后在文本文件上运行分析?
请建议我。
p.s:当我开始在谷歌搜索时,我遇到this。是剩下的唯一选择还是任何其他解决方案。