Mule流程:如何从XML文件中删除BOM标记

时间:2013-11-27 17:29:22

标签: parsing mule sax byte-order-mark

我为Mule流输入了复杂的大型XML文件。

文件结束点 - >字节数组到字符串 - >拆分器 - > ....

当我尝试使用Splitter组件处理输入文件时,我有 org.xml.sax.SAXParseException:prolog 中不允许使用内容。当我创建新的xml文件并将原始文件的内容复制到该文件时,将处理输入文件。 我在创建新文件时删除BOM标记。原始文件从文件开头就有EF BB BF,本地文件没有。

Mule config:

<?xml version="1.0" encoding="UTF-8"?>
<mule xmlns:tracking="http://www.mulesoft.org/schema/mule/ee/tracking"    
xmlns:mulexml="http://www.mulesoft.org/schema/mule/xml"
xmlns:doc="http://www.mulesoft.org/schema/mule/documentation"
xmlns:spring="http://www.springframework.org/schema/beans" version="EE-3.4.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.mulesoft.org/schema/mule/file    
http://www.mulesoft.org/schema/mule/file/current/mule-file.xsd
http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans 
current.xsd
http://www.mulesoft.org/schema/mule/core http://www.mulesoft.org/schema/mule/core/current/mule.xsd
http://www.mulesoft.org/schema/mule/xml http://www.mulesoft.org/schema/mule/xml/current/mule-xml.xsd
http://www.mulesoft.org/schema/mule/ee/tracking    
http://www.mulesoft.org/schema/mule/ee/tracking/current/mule-tracking-ee.xsd">

<mulexml:dom-to-xml-transformer name="domToXml"/>

<flow name="SplitterFlow1" doc:name="SplitterFlow1">
<file:inbound-endpoint path="D:\WORK\Input"
moveToDirectory="D:\WORK\Output"
responseTimeout="10000" doc:name="File" fileAge="200" encoding="UTF-8"/>
<byte-array-to-string-transformer doc:name="Byte Array to String" />
<splitter evaluator="xpath" expression="/Invoices/invoice"
doc:name="Splitter"/>
<transformer ref="domToXml" doc:name="Transformer Reference"/>
    <tracking:custom-event event-name="Invoice ID" doc:name="Custom Business event">
    </tracking:custom-event>
<logger level="INFO" doc:name="Logger"/>
<file:outbound-endpoint path="D:\WORK\Output"
outputPattern="#[function:dateStamp:dd-MM-yyyy-HH.mm.ss]-#[header:OUTBOUND:MULE_CORRELATION_SEQUENCE]"
responseTimeout="10000" doc:name="File"></file:outbound-endpoint>
</flow>
</mule>

请告诉我如何在骡子流中做到这一点。提前谢谢。

3 个答案:

答案 0 :(得分:0)

你可以在拆分器之前添加一个带有类的Java转换器:

.war

答案 1 :(得分:0)

这是一个相当古老的帖子,但这是我的贡献。

@alexander-shapkin建议的Java转换器方法外,我强烈建议您使用 Apache Commons&#39; org.apache.commons.io.BOMInputStream 可以处理开箱即用的BOM标记。代码如下所示:

import java.io.InputStream;

import org.apache.commons.io.ByteOrderMark;
import org.apache.commons.io.IOUtils;
import org.apache.commons.io.input.BOMInputStream;
import org.mule.api.MuleMessage;
import org.mule.api.transformer.TransformerException;
import org.mule.transformer.AbstractMessageTransformer;

public class DeleteBOM extends AbstractMessageTransformer {

@Override
public Object transformMessage(MuleMessage message, String outputEncoding)
        throws TransformerException {

    try (InputStream in = new BOMInputStream(IOUtils.toInputStream(message.getPayloadAsString()), ByteOrderMark.UTF_8)) {       
        return IOUtils.toString(in);
    } catch (Exception e) {
        throw new RuntimeException("Could not remove BOM marker");
    }
}

}

我使用以下配置部分复制了您的Mule应用程序:

    <file:connector name="File" autoDelete="false" streaming="true" validateConnections="true" doc:name="File" />
    <mulexml:dom-to-xml-transformer name="DOM_to_XML" doc:name="DOM to XML"/>
    <flow name="lalaFlow">
        <file:inbound-endpoint path="D:\WORK\Input" moveToDirectory="D:\WORK\Output" responseTimeout="10000" doc:name="File" fileAge="200" encoding="UTF-8"/>
        <component class="org.mule.bom.DeleteBOM" doc:name="Java"/>
        <transformer ref="DOM_to_XML" doc:name="Transformer Reference"/>
        ...
    </flow>

如需进一步参考,请转至https://commons.apache.org/proper/commons-io/javadocs/api-2.2/org/apache/commons/io/input/BOMInputStream.html

答案 2 :(得分:-1)

尝试以下

1.使用文件将字符串变换器而不是字节数字串转换为字符串变换器。

2.检查是否完全读取了大的xml,如果没有使用文件端点的文件年龄属性,这将使您能够完全读取大文件。