Question

我正在使用es-hadoop连接器将RDD直接写入Elasticsearch。对于小文件我从来没有遇到任何问题。但现在我开始索引pdf文件了。我提取元数据和原始文本，并从这些字段中构建地图。简化，它看起来像这样：

val fileData = sc.binaryFiles(inputPath)
                 .map(f => myFunc(f, extraData))
                 .filter(f => !f.isEmpty).cache
                 .saveToEs("/" + index + "/" + docName)

我尝试了5个相当小的pdf，在100kb到1mb之间。对于未来，我计划索引任意大小的文件（尽管只提取原始文本）。所以即使一个10mb或100mb的文件也应该索引没有错误。但即使是小子集我也会收到这个错误：

ERROR NetworkClient: Node [Connection refused] failed (:9200); selected next node

我考虑过增加es.batch.size.bytes但到目前为止没有成功。

我是否遗漏了其他设置，或者如何设置群集而不是为索引相当大的文档而抛出错误？

编辑：我在一个节点上运行ES 2.1，5个分片，1个副本。连接器是elasticsearch-hadoop-2.2.0-m1，Spark是版本1.5.1。

从Spark

0 个答案: