我有一个非常奇怪的问题:我在两个xml文件上运行相同的代码,第二个是第一个的副本(我复制了内容,也许这是一个问题)。 代码使用REXML来解析xml文件,在第一个文件上它都很好,第二个我有这个错误: 失败:格式错误的XML:缺少标记开始 线:2 位置:102 最近80个未消耗的角色:
<t>dede</t>
xml文件的内容是:
<?xml version="1.0" standalone="yes"?>
<t>dede</t>
有什么想法吗?
非常感谢
答案 0 :(得分:1)
使用此代码我没有任何此类问题:
require 'rexml/document'
doc = REXML::Document.new <<ENDXML
<?xml version="1.0" standalone="yes"?>
<t>dede</t>
ENDXML
doc.each_element('//t'){ |e| puts e }
#=> <t>dede</t>
您使用的是哪个版本的Ruby,以及您的代码实际上是什么样的?
编辑:基于你正在使用流解析器的新信息,这是另一段代码,对我来说也可以使用Ruby 1.8.7:
class Listener
def method_missing( name, *args ); puts "I don't support '#{name}'"; end
def tag_start( name, attrs ); puts "<#{name} #{attrs.inspect}>"; end
def text( str ); p str; end
def tag_end( name ); puts "</#{name}>"; end
end
require 'stringio'
xml = StringIO.new <<ENDXML
<?xml version="1.0" standalone="yes"?>
<t>dede</t>
ENDXML
require 'rexml/document'
doc = REXML::Document.parse_stream( xml, Listener.new )
#=> "\t"
#=> I don't support 'xmldecl'
#=> "\n\t"
#=> <t {}>
#=> "dede"
#=> </t>
#=> "\n"
答案 1 :(得分:1)
这是因为文件编码。我有同样的问题,发现该文件是UCS-2编码。 UTF-8或ANSI都可以使用,但UCS-2看起来并不像。它可能首先需要这种格式的专用解析器。我刚刚在Notepad ++中转换了xml文件来测试不同的编码。
答案 2 :(得分:0)
REXML似乎有点太急于抛出ParseException。编码绝对是罪魁祸首。检查文件的编码。