使用Java Client Api(DMSDK)从marklogic创建CSV文件

时间:2018-02-05 15:46:56

标签: csv marklogic java-api marklogic-corb

我想从marklogic db中为1.3M记录创建一个csv文件。我尝试使用CORB,但它花了比我预期更多的时间。 我的数据就像这样

{
"One": {
"Name": "One",
"Country": "US"
}, 
"Two": {
"State": "kentucky"
}, 
"Three": {
"Element1": "value1", 
"Element2": "value2", 
"Element3": "value3", 
"Element4": "value4",
so on ...
}
}

以下是我的Corb模块

Selector.xqy

var total = cts.uris("", null, cts.collectionQuery("data"));
fn.insertBefore(total,0,fn.count(total))

Transform.xqy(我将所有元素保留在数组中)

var name = fn.tokenize(URI, ";");
const node = cts.doc(name);
var a= node.xpath("/One/*");
var b= node.xpath("/Two/*");
var c= node.xpath("/Three/*");
fn.stringJoin([a, b, c,name], " , ")

我的属性文件

THREAD-COUNT=16
BATCH-SIZE=1000
URIS-MODULE=selector.sjs|ADHOC
PROCESS-MODULE=transform.sjs|ADHOC
PROCESS-TASK=com.marklogic.developer.corb.ExportBatchToFileTask
EXPORT-FILE-NAME=Report.csv
PRE-BATCH-TASK=com.marklogic.developer.corb.PreBatchUpdateFileTask
EXPORT-FILE-TOP-CONTENT=Col1,col2,....col16 -- i have 16 columns 

创建csv文件花了1个多小时。而且,对于在群集中尝试,我需要首先配置负载均衡器。而Java Client api将在没有任何负载均衡器的情况下在所有节点之间分配工作。

我如何在Java Client APi中实现相同功能,我知道我可以使用ServerTransformApplyTransformListener触发变换模块。

public static void main(String[] args) {
  // TODO Auto-generated method stub

  DatabaseClient client = DatabaseClientFactory.newClient
            ("localhost", pwd, "x", "x",  DatabaseClientFactory.Authentication.DIGEST);

  ServerTransform txform = new ServerTransform("tsm"); -- Here i am implementing same logic of above `tranform module` .

  QueryManager qm = client.newQueryManager();
  StructuredQueryBuilder query = qm.newStructuredQueryBuilder();
  query.collection();

  DataMovementManager dmm = client.newDataMovementManager();
  QueryBatcher batcher = dmm.newQueryBatcher(query.collections("data"));
  batcher.withBatchSize(2000)
         .withThreadCount(16)
         .withConsistentSnapshot()
         .onUrisReady(
           new ApplyTransformListener().withTransform(txform))
         .onBatchSuccess(batch-> {
                   System.out.println(
                       batch.getTimestamp().getTime() +
                       " documents written: " +
                       batch.getJobWritesSoFar());
         })
         .onBatchFailure((batch,throwable) -> {
           throwable.printStackTrace();
         });

  // start the job and feed input to the batcher
  dmm.startJob(batcher);

  batcher.awaitCompletion();
  dmm.stopJob(batcher);
  client.release();
}

但是如何在CORB中发送csv文件头(即EXPORT-FILE-TOP-CONTENT)。是否有任何实施CSV文件的文档?哪个类会实现它?

感谢任何帮助

由于

1 个答案:

答案 0 :(得分:3)

可能最简单的选项是ml-gradle Exporting data to CSV,它使用Java Client API和DMSDK。

请注意,您可能希望安装服务器端REST转换以仅提取CSV输出中所需的数据,而不是下载整个文档内容,然后在Java端提取。

有关使用DMSDK并创建聚合CSV(所有记录都有一个CSV)所需代码的工作示例,请参阅ExporToWriterListenerTest.testMassExportToWriter。为了SO,这里是关键代码片段(有一些简单的简化更改,包括编写列标题(未经测试的代码)):

try (FileWriter writer = new FileWriter(outputFile)) {
  writer.write("uri,collection,contents");
  writer.flush();
  ExportToWriterListener exportListener = new ExportToWriterListener(writer)
    .withRecordSuffix("\n")
    .withMetadataCategory(DocumentManager.Metadata.COLLECTIONS)
    .onGenerateOutput(
      record -> {
        String uri = record.getUri();
        String collection = record.getMetadata(new DocumentMetadataHandle()).getCollections().iterator().next();
        String contents = record.getContentAs(String.class);
        return uri + "," + collection + "," + contents;
      }
    );

  QueryBatcher queryJob =
    moveMgr.newQueryBatcher(query)
      .withThreadCount(5)
      .withBatchSize(10)
      .onUrisReady(exportListener)
      .onQueryFailure( throwable -> throwable.printStackTrace() );
  moveMgr.startJob( queryJob );
  queryJob.awaitCompletion();
  moveMgr.stopJob( queryJob );
}

但是,除非您知道您的内容没有双引号,换行符或非ascii字符,否则建议使用CSV库以确保您的输出已正确转义。要使用CSV库,您当然可以使用任何教程来存储库。您无需担心线程安全性,因为ExportToWriterListener在同步块中运行侦听器以防止写入器重叠写入。这是an example of using one CSV library, Jackson CsvMapper

请注意,您不必使用ExportToWriterListener。 。 。你可以用它作为编写自己的监听器的起点。特别是,由于您主要关注的是性能,您可能希望让您的侦听器每个线程写入一个文件,然后进行后处理以将各种内容组合在一起。这取决于你。