我想让人们放入简单的文本搜索术语,运行一个猪作业(如果这是最好的?这是我最了解的)并输出结果(tsv文件结果?)所以我可以在网上显示它们接口
有什么方法可以解决这个问题吗? 有什么东西可以将我想要的一些脱节的部分联系在一起吗?
由于
答案 0 :(得分:3)
为什么不将文档索引到Lucene或Solr?然后你可以实时进行文本搜索。 Hadoop专为面向批处理的流程而设计,在这种情况下看起来不像您想要的那样。
答案 1 :(得分:1)
嗯,这取决于您项目的要求。它是否需要低延迟,以及临时搜索有多复杂。我认为hbase + pig可能是一个包含的解决方案。 hbase可用于搜索实时搜索目的(虽然它的搜索功能不如RDBMS强大)和pig用于批量处理大量数据。