使用RecordLoader加载Outlook将TSV导出到MarkLogic

时间:2014-05-14 18:30:28

标签: csv marklogic nosql

使用RecordLoader将Microsoft Outlook 2010收件箱导出TSV导出到MarkLogic时,我得到以下内容。这是编码问题吗?我已经尝试了其他加载方法(mlcp,Java,XQuery),但由于编码问题,所有方法都失败了。有没有办法将Microsoft生成的TSV文件转换为MarkLogic兼容文件?我尝试了一些在线转换器,但他们没有工作。我也尝试使用Notepad ++将文件转换为UTF-8,但当我点击“转换为UTF-8”按钮时,所有数据都会消失。这是我在MarkLogic的最后一次尝试,如果找不到加载此数据的方法,将切换到另一个平台。救命啊!

SEVERE: java.nio.charset.MalformedInputException: Input length = 1
java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
    at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:338)
    at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
    at java.io.InputStreamReader.read(InputStreamReader.java:184)
    at java.io.BufferedReader.fill(BufferedReader.java:154)
    at java.io.BufferedReader.readLine(BufferedReader.java:317)
    at java.io.BufferedReader.readLine(BufferedReader.java:382)
    at com.marklogic.recordloader.xcc.DelimitedDataLoader.process(DelimitedDataLoader.java:115)
    at com.marklogic.recordloader.AbstractLoader.call(AbstractLoader.java:96)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)

1 个答案:

答案 0 :(得分:1)

RecordLoader默认使用Java语言环境默认编码。但您可以设置编码以匹配您的数据。例如,如果它是Windows 1252编码,请设置INPUT_ENCODING=Cp1252

({3}}记录了

INPUT_ENCODING({1}},http://marklogic.github.io/recordloader/列出了Java编码名称