Hadoop大数据文件文本搜索

时间:2015-10-22 00:19:15

标签: hadoop indexing solr full-text-search bigdata

我正在开发一个大数据项目(cloudera环境),其中来自多个数据源的所有数据都加载到Hadoop中。现在,我有一组包含大量文本的.pdf,.jpeg文件。我想根据存储在HDFS中的数据搜索这些文件的内容。谁能告诉我哪个库/框架可用于我的项目..?我开始了解Apach Solr这看起来很有趣,但想知道是否还有其他工具可以对我的项目有用。

非常感谢任何反馈/建议。

谢谢!

1 个答案:

答案 0 :(得分:0)

看起来您需要搜索图像处理框架,然后将该数据转换为solr。像this

这样的东西