使用RecordLoader将Microsoft Outlook 2010收件箱导出TSV导出到MarkLogic时,我得到以下内容。这是编码问题吗?我已经尝试了其他加载方法(mlcp,Java,XQuery),但由于编码问题,所有方法都失败了。有没有办法将Microsoft生成的TSV文件转换为MarkLogic兼容文件?我尝试了一些在线转换器,但他们没有工作。我也尝试使用Notepad ++将文件转换为UTF-8,但当我点击“转换为UTF-8”按钮时,所有数据都会消失。这是我在MarkLogic的最后一次尝试,如果找不到加载此数据的方法,将切换到另一个平台。救命啊!
SEVERE: java.nio.charset.MalformedInputException: Input length = 1
java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:338)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
at java.io.InputStreamReader.read(InputStreamReader.java:184)
at java.io.BufferedReader.fill(BufferedReader.java:154)
at java.io.BufferedReader.readLine(BufferedReader.java:317)
at java.io.BufferedReader.readLine(BufferedReader.java:382)
at com.marklogic.recordloader.xcc.DelimitedDataLoader.process(DelimitedDataLoader.java:115)
at com.marklogic.recordloader.AbstractLoader.call(AbstractLoader.java:96)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:744)
答案 0 :(得分:1)
RecordLoader默认使用Java语言环境默认编码。但您可以设置编码以匹配您的数据。例如,如果它是Windows 1252编码,请设置INPUT_ENCODING=Cp1252
。
INPUT_ENCODING
({1}},http://marklogic.github.io/recordloader/列出了Java编码名称