如何将来自不同来源的文件收集到HDFS中?

时间:2017-03-10 10:04:01

标签: hadoop apache-spark elasticsearch sharepoint hdfs

目前,我正在与一个致力于"搜索引擎"的团队合作,特别是与HP Idol合作,

我的工作的主要想法是找到一个新的搜索引擎,这是一个开源的,所以我开始使用Elasticsearch,但我仍然有一些问题,我找不到解决方案;

我需要从

的服务器将文档索引到Elasticsearch中
  • Sharepoint
  • Documentum
  • 露天

所以从我在网上搜索,我发现了,

  • Talend(不能使用因为,团队不想付钱)
  • Apache Manifoldcf(开源但很多问题)

看过那些问题,我继续寻找新的解决方案。 你有没有可能告诉我是否有可能将所有文件从源代码放入HDFS,然后使用Apache Spark在Elasticsearch上将它们全部编入索引? 我也将欣赏你从未想过的所有新技术。

提前致谢

0 个答案:

没有答案