从Spark

时间:2015-12-22 12:01:44

标签: hadoop elasticsearch apache-spark

我正在使用es-hadoop连接器将RDD直接写入Elasticsearch。对于小文件我从来没有遇到任何问题。但现在我开始索引pdf文件了。我提取元数据和原始文本,并从这些字段中构建地图。简化,它看起来像这样:

val fileData = sc.binaryFiles(inputPath)
                 .map(f => myFunc(f, extraData))
                 .filter(f => !f.isEmpty).cache
                 .saveToEs("/" + index + "/" + docName)

我尝试了5个相当小的pdf,在100kb到1mb之间。对于未来,我计划索引任意大小的文件(尽管只提取原始文本)。所以即使一个10mb或100mb的文件也应该索引没有错误。但即使是小子集我也会收到这个错误:

ERROR NetworkClient: Node [Connection refused] failed (:9200); selected next node

我考虑过增加es.batch.size.bytes但到目前为止没有成功。

我是否遗漏了其他设置,或者如何设置群集而不是为索引相当大的文档而抛出错误?

编辑:我在一个节点上运行ES 2.1,5个分片,1个副本。连接器是elasticsearch-hadoop-2.2.0-m1,Spark是版本1.5.1。

0 个答案:

没有答案