Java SAX解析。访问当前解析的xml文件中的文件行

时间:2011-12-13 08:23:40

标签: java xml parsing sax

解析XML文档时,您可以设置定位器,定位器将告诉您当不同事件触发时您当前所在的行号和列号。

我想知道,如何获取该行的内容,我是否必须传递该文件,自己将其读入数组,这不是由sax处理程序完成的,因为它让我可以访问定位器,必须离开以访问处理程序当前正在使用的文件。

谢谢!

:::::::::::::::::::::::::: EDIT ::::::::::::::::::: < / p>

我正在尝试回显一个xml文件,并希望包含doctype声明:

<!DOCTYPE employee [<!ELEMENT employee (Name, Dept, Title)>
<!ELEMENT Name (#PCDATA)> 
<!ELEMENT Dept (#PCDATA)>
<!ELEMENT Title (#PCDATA)> ]>

有一个

public void startDTD(String name, String publicId, String systemId);

public void endDTD();

您可以使用定位器获取当前行和列,并从文件中读取。

SAX解析器有一些事情不会触发事件或提供有关读取XML文件中的内容的足够信息。

2 个答案:

答案 0 :(得分:2)

首先,您确定解析器不会通过一个更专业的处理程序提供您需要的信息,例如: LexicalHandler?

如果您确实需要访问原始数据,请编写位于SAX解析器和“真实”Reader或InputStream之间的Reader或InputStream实现,将所有read()请求传递给底层读取器,但要跟踪从文件中读取的最后几行。然后,此过滤器可以响应提供行N内容的请求,因为它保留了数据。但是,我不确定如何使这项工作满足您的实际要求,因为您要查找的信息可以分布在任意数量的行中。

答案 1 :(得分:0)

没有办法进入“文件”。甚至可能没有文件,因为输出可以动态生成或通过网络获取。解析器所做的是跟踪解析内容时传递的换行符的数量(\ r \ n,\ n或\ r \ n)。当使用SAX时,并非所有当前行都必须可用(想象一个大文档,全部在一行上)。

您可以将输入包装在一个跟踪“当前行”的类中,但同样要注意一行中的大型文档。

编辑:承诺的简单包装

public class LastLineInputStreamWrapper extends InputStream {

    private final byte[] buffer = new byte[10*1024];
    private final InputStream wrapped;
    private int previous;
    private int length;

    public LastLineInputStreamWrapper(InputStream wrapped) {
        this.wrapped = wrapped;
    }

    @Override
    public int read() throws IOException {
        int current = wrapped.read();
        if ('\r' == current) {
            newLine();
        } else if ('\n' == current) {
            if ('\r' != previous) {
                newLine();
            }
        } else {
            add(current);
        }
        previous = current;
        return current;
    }

    private void newLine() {
        length = 0;
    }

    private void add(int current) {
        if (length < buffer.length && current != -1) {
            buffer[length++] = (byte) current;
        }
    }

    public byte[] getLine() {
        byte[] line = new byte[length];
        System.arraycopy(buffer, 0, line, 0, length);
        return line;
    }
}

一种简单的方法,只是为了向您展示如何开始。如果你想沿着这条路走下去,你可能想要覆盖read(byte [])方法,以避免为每个字节调用read。

如果你有一个Reader,那么你可以直接使用字符而不是字节。