Question

我需要解析其中包含许多无效字符的XML文件。这是我用来解析文件并替换无效字符的VB6 / VBA代码：

Dim xmldoc As MSXML2.DOMDocument
Dim xmlNode As MSXML2.IXMLDOMNode
Dim xmlNodeList As MSXML2.IXMLDOMNodeList
dim XML as string
dim fno as integer

' get the XML file
fno = FreeFile
Open "input.xml" For Input As #fno
XML = Input(LOF(fno), fno)
Close #fno

TOP_OF_CODE:
Set xmldoc = New MSXML2.DOMDocument60
xmldoc.LoadXML XML
Set xmlNodeList = xmldoc.getElementsByTagName("*")
For Each xmlNode In xmlNodeList

    (a bunch of code to parse the XML)

Next xmlNode

If xmldoc.parseError.errorCode <> 0 And xmldoc.parseError.reason = "An invalid character was found in text content." & vbCrLf Then
    ' invalid character was found
    ptr = xmldoc.parseError.filepos
    XML = Left(XML, ptr - 1) & "x" & Mid(XML, ptr + 1)
    set xmldoc = Nothing
    GoTo TOP_OF_CODE
end if

代码完全按预期工作的大部分时间：迭代删除每个无效字符，然后进行解析。然而，有时情况似乎变得“卡住”：每次在同一位置检测到无效字符时，即使我用有效字符替换了无效字符。我已经尝试插入各种字符来替换无效字符，并且还简单地删除了该字符位置。我仍然在同一个地方收到无效的字符错误。有线索吗？

Answer 1

我不会打开文件“As Input”。相反，我会打开它“As Binary”，分配一个缓冲区：Redim abytData（1 To Lof（fno）），并使用Get #fno，abytData（）将数据拉入缓冲区。这意味着VB不会对数据进行任何处理。然后，您应该使用字符串函数的各种“B”字节版本（例如InStrB（））来处理数据。

然后，我会尽可能多地进行预处理，以便在解析XML之前删除无效字符，而不是依赖XML解析器来执行此操作，这是一种低效的机制。

您能举例说明您找到的无效字符吗？

MSXML：当我尝试删除无效字符时，它有时会被卡住＆＃34;

1 个答案: