我想使用全文搜索引擎,我决定成为Sphinx。但我正在使用hadoop和Big数据平台,Sphinx Search与mysql DB兼容,无法处理大数据。
那么有没有办法在像hadoop或HDFS或任何其他nosql数据库这样的大数据环境中使用Sphinx?
答案 0 :(得分:1)
它带有用于从RDBMS加载数据的内置驱动程序,但当然不限于此。
首先,有'管道'索引选项......
http://sphinxsearch.com/docs/current.html#xmlpipe2 http://sphinxsearch.com/docs/current.html#xsvpipe
这些只是运行脚本并索引输出。该脚本可以从几乎任何可以想象的系统中获取数据。
很多项目可以用来开始,ramdom示例: https://github.com/georgepsarakis/mongodb-sphinx
您也可以直接从hadoop获取CSV输出?
还有实时索引。数据直接插入索引中的情况。不是Hadoop专家,但理论上,可以让hadoop项目将结果直接注入sphinx(输出提交者?),而不是(或者除此之外)将结果写入HDFS。 http://sphinxsearch.com/docs/current.html#rt-indexes
也可以使用类似的东西 https://www.percona.com/blog/2014/06/02/using-infinidb-engine-mysql-hadoop-cluster-data-analytics/ 作为hadoop和狮身人面像之间的桥梁。 (即sphinx'es索引器通过假的mysql引擎创建索引)