我有一个用C#编写的Windows桌面应用程序,它循环存储在磁盘上并由第三方程序创建的一堆XML文件。大多数所有文件都由此语句后面的LINQ代码成功加载和处理:
XDocument xmlDoc = XDocument.Load(inFileName);
List<DocMetaData> docList =
(from d in xmlDoc.Descendants("DOCUMENT")
select new DocMetaData
{
File = d.Element("FILE").SafeGetAttributeValue("filename")
,
Folder = d.Element("FOLDER").SafeGetAttributeValue("name")
,
ItemID = d.Elements("INDEX")
.Where(i => (string)i.Attribute("name") == "Item ID(idmId)")
.Select(i => (string)i.Attribute("value"))
.FirstOrDefault()
,
Comment = d.Elements("INDEX")
.Where(i => (string)i.Attribute("name") == "Comment(idmComment)")
.Select(i => (string)i.Attribute("value"))
.FirstOrDefault()
,
Title = d.Elements("INDEX")
.Where(i => (string)i.Attribute("name") == "Title(idmName)")
.Select(i => (string)i.Attribute("value"))
.FirstOrDefault()
,
DocClass = d.Elements("INDEX")
.Where(i => (string)i.Attribute("name") == "Document Class(idmDocType)")
.Select(i => (string)i.Attribute("value"))
.FirstOrDefault()
}
).ToList<DocMetaData>();
...其中inFileName是一个完整的路径和文件名,例如:
Y:\S2Out\B0000004\Pet Tab\convert.B0000004.Pet Tab.xml
但是有些文件会导致这样的问题:
System.Xml.XmlException: Invalid character in the given encoding. Line 52327, position 126.
at System.Xml.XmlTextReaderImpl.Throw(Exception e)
at System.Xml.XmlTextReaderImpl.Throw(String res, String arg)
at System.Xml.XmlTextReaderImpl.InvalidCharRecovery(Int32& bytesCount, Int32& charsCount)
at System.Xml.XmlTextReaderImpl.GetChars(Int32 maxCharsCount)
at System.Xml.XmlTextReaderImpl.ReadData()
at System.Xml.XmlTextReaderImpl.ParseAttributeValueSlow(Int32 curPos, Char quoteChar, NodeData attr)
at System.Xml.XmlTextReaderImpl.ParseAttributes()
at System.Xml.XmlTextReaderImpl.ParseElement()
at System.Xml.XmlTextReaderImpl.ParseElementContent()
at System.Xml.XmlTextReaderImpl.Read()
at System.Xml.Linq.XContainer.ReadContentFrom(XmlReader r)
at System.Xml.Linq.XContainer.ReadContentFrom(XmlReader r, LoadOptions o)
at System.Xml.Linq.XDocument.Load(XmlReader reader, LoadOptions options)
at System.Xml.Linq.XDocument.Load(String uri, LoadOptions options)
at System.Xml.Linq.XDocument.Load(String uri)
at CBMI.WinFormsUI.GridForm.processFile(StreamWriter oWriter, String inFileName, Int32 XMLfileNumber) in C:\ProjectsVS2010\CBMI.LatitudePostConverter\CBMI.LatitudePostConverter\CBMI.WinFormsUI\GridForm.cs:line 147
at CBMI.WinFormsUI.GridForm.btnProcess_Click(Object sender, EventArgs e) in C:\ProjectsVS2010\CBMI.LatitudePostConverter\CBMI.LatitudePostConverter\CBMI.WinFormsUI\GridForm.cs:line 105
XML文件看起来像这样(此示例仅显示2个DOCUMENT元素,但有很多):
<?xml version="1.0" ?>
<DOCUMENTCOLLECTION>
<DOCUMENT>
<FILE filename="e:\S2Out\B0000005\General\D003712420.0001.pdf" outputpath="e:\S2Out\B0000005\General"/>
<ANNOTATION filename=""/>
<INDEX name="Comment(idmComment)" value=""/>
<INDEX name="Document Class(idmDocType)" value="General"/>
<INDEX name="Item ID(idmId)" value="003712420"/>
<INDEX name="Original File Name(idmDocOriginalFile)" value="Matrix Aligning 603.24 Criteria to Petition Pages.pdf"/>
<INDEX name="Title(idmName)" value="Matrix for 603.24"/>
<FOLDER name="/Accreditation/PASBVE/2004-06"/>
</DOCUMENT>
<DOCUMENT>
<FILE filename="e:\S2Out\B0000005\General\D003712442.0001.pdf" outputpath="e:\S2Out\B0000005\General"/>
<ANNOTATION filename=""/>
<INDEX name="Comment(idmComment)" value=""/>
<INDEX name="Document Class(idmDocType)" value="General"/>
<INDEX name="Item ID(idmId)" value="003712442"/>
<INDEX name="Original File Name(idmDocOriginalFile)" value="Contacts at NDU.pdf"/>
<INDEX name="Title(idmName)" value="Contacts at NDU"/>
<FOLDER name="/Accreditation/NDU/2006-12/Self-Study"/>
</DOCUMENT>
LINQ语句有其自身的复杂性,但我认为它的工作正常;失败的是LOAD。我已经查看了XDocument Load的各种构造函数,并且我已经研究了抛出此异常的其他一些问题,但我对如何防止这种情况感到困惑。
最后,在第52327行,第126位,在无法加载的文件中,似乎第52327行的这些数据不应该导致问题(并且最后一个字符位于第103位!
<FILE filename="e:\S2Out\B0000004\Pet Tab\D003710954.0001.pdf" outputpath="e:\S2Out\B0000004\Pet Tab"/>
答案 0 :(得分:34)
为了控制编码(一旦你知道它是什么),你可以使用接受Load
的{{1}}方法覆盖来加载文件。
然后,您可以针对您的文件创建新的Stream
,在构造函数中指定相应的StreamReader
。
例如,要使用西欧编码打开文件,请在问题中替换以下代码行:
Encoding
使用此代码:
XDocument xmlDoc = XDocument.Load(inFileName);
支持的编码列表可在MSDN documentation。
中找到答案 1 :(得分:2)
不确定这是否是您的情况,但这可能与给定编码的无效字节序列有关。示例:http://en.wikipedia.org/wiki/UTF-8#Invalid_byte_sequences。
尝试在加载时从文件中过滤无效序列。
答案 2 :(得分:1)
因为XmlDocument在遇到未编码的字符时加载整个事件,所以它会中止整个过程。 如果要处理尽可能的内容并跳过/记录duff位,请查看XmlTextReader。 从Filestream加载的XmlTextReader将一次加载一个节点,因此它也将使用更少的内存。你甚至可以聪明地将事情拆分并平行处理。
当我有这个时,它就像那里的重音字符:严重,尖锐,变形金刚等。
我没有任何自动化过程,所以通常我只是在Visual Studio中加载文件并编辑坏人,直到没有任何波浪形状。这个理论虽然合理。
答案 3 :(得分:1)
引用的文件包含对文件名有效的字符,但在XML属性中无效。你有几个选择。