XmlReader没有考虑doctype表示法

时间:2012-11-13 18:22:55

标签: c# .net xml validation xmlreader

第一次在这些论坛上写作。好久不读了。

我遇到问题,尝试在.Net中使用XmlReader验证Xml文件。

Xml文件:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE root [
  <!NOTATION png PUBLIC "-//W3C//NOTATION Portable Network Graphics//EN">
  <!ENTITY mypic SYSTEM "mypic.png" NDATA png>
]>
<root>
  <img ref="mypic" />
</root>

Xsd文件:

<?xml version="1.0" encoding="utf-8"?>
<xs:schema id="myschema"
    elementFormDefault="qualified"
    xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="img">
    <xs:complexType>
      <xs:attribute name="ref" type="xs:ENTITY" />
    </xs:complexType>
  </xs:element>

  <xs:element name="root">
    <xs:complexType>
      <xs:sequence>
        <xs:element ref="img" />
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>

C#片段:

XmlReaderSettings settings = new XmlReaderSettings();
settings.ValidationEventHandler += settings_ValidationEventHandler;
settings.ValidationType = ValidationType.Schema;
settings.DtdProcessing = DtdProcessing.Parse;
settings.ValidationFlags |= XmlSchemaValidationFlags.ProcessIdentityConstraints
            | XmlSchemaValidationFlags.ProcessInlineSchema
            | XmlSchemaValidationFlags.ProcessSchemaLocation
            | XmlSchemaValidationFlags.ReportValidationWarnings;

using (XmlReader reader = XmlReader.Create("myschema.xsd")) 
{
    settings.Schemas.Add(XmlSchema.Read(reader, new ValidationEventHandler(settings_ValidationEventHandler)));
}

using (XmlReader reader = XmlReader.Create("mydata.xml", settings))
{
    while (reader.Read()) ;
}

我收到验证错误说明:

Reference to an unparsed entity, 'mypic'.

根据其他验证器,它确实验证了,但不是根据XmlReader。

我已经尝试了所有我能想到的东西,所以现在我转向你们。 非常感谢任何帮助。

1 个答案:

答案 0 :(得分:2)

通过使用Reflector,我发现NOTATION和ENTITY声明确实被解析了。

验证器将找到您的mypic实体引用,并将其视为外部和未解析,因为它具有非空的NDATA声明。

但是,我还发现,只要遇到未解析的实体引用,验证器就会始终发送引用未解析的实体验证错误。

我不明白为什么Microsoft会将此报告为错误。在我看来,验证器应该忽略未解析的实体引用或将它们报告为警告,而不是错误。

忽略验证器中的这些错误应该是安全的,并且仍然认为XML有效,除非报告任何其他错误。

那么,如何确定报告的错误是否是一个可忽略的对未解析实体的引用 -error?

我看到三个选项:

  1. 检查错误消息是否以字符串Reference to an unparsed entity开头。如果您的代码在非英语平台上运行,这将会中断。

  2. 使用反射获取内部GetRes属性的值,并查看它是否等于Sch_UnparsedEntityRef。如果Microsoft决定更改内部API,这将会中断。

  3. 序列化异常并确定序列化res成员是否等于Sch_UnparsedEntityRef。如果Microsoft决定更改序列化格式,这将会中断。

  4. 所有这些选项都是“黑客”。第一个最有可能破产。但是,第三个应该是安全的。 Microsoft不太可能更改序列化格式,因为这可能会破坏与其他代码的兼容性。

    以下是如何确定是否忽略您在settings_ValidationEventHandler方法中收到的验证例外的示例。

    基于错误消息(不安全):

        static bool IsUnparsedEntityReferenceError_BasedOnMessage(
            XmlSchemaException error)
        {
            return error != null && error.Message.StartsWith(
                "Reference to an unparsed entity", StringComparison.Ordinal);
        }
    

    基于反思(非常安全):

        static readonly PropertyInfo GetResProp = typeof(XmlSchemaException)
            .GetProperty("GetRes", BindingFlags.NonPublic | BindingFlags.Instance);
    
        static bool IsUnparsedEntityReferenceError_BasedOnReflection(
            XmlSchemaException error)
        {
            return error != null && GetResProp != null && 
                "Sch_UnparsedEntityRef".Equals(GetResProp.GetValue(error, null));
        }
    

    基于序列化格式(最安全):

        static bool IsUnparsedEntityReferenceError_BasedOnSerializer(
            XmlSchemaException error)
        {
            if (error == null)
            {
                return false;
            }
            else
            {
                SerializationInfo info = new SerializationInfo(
                    typeof(XmlSchemaException), new FormatterConverter());
    
                error.GetObjectData(info, default(StreamingContext));
                return "Sch_UnparsedEntityRef" == info.GetString("res");
            }
        }