我有一个脚本循环遍历xml文件中的所有文本节点(使用xml :: dom),然后针对reqex计算它们。我没有匹配文本,如:
§ 1-101
我无法与正则表达式匹配,例如
my $match =~ qr/((?:\&\#xa7;\&\#x2009\;)?(?:\d+\-\d{3}))/;
当我省略实体时它工作正常...我最好(有限)的猜测是实体不是简单的文本,我需要代码将实体展平为纯文本,或以某种方式处理实体。处理该问题的最佳方法是什么?
答案 0 :(得分:0)
XML :: DOM :: Node有一个非标准方法expandEntityRefs(),它将它们扩展为纯文本。否则,HTML :: Entities也可能足以供您使用。