Question

我正在从网址检索数据：

data = urllib2.urlopen(url).read()

但是，我注意到没有标签。这是因为＆＃34;＆lt;＆＃34;和＆＃34;＆gt;＆＃34;被＆＃34;;＆＃34;取代字符。其他一切都完好无损。所以：

<foo>bar</foo>已更改为;foo;bar;/foo;

我该如何解决这个问题？为什么会这样？

[编辑]：我发现了如何修复它。显然，它正在取代＆＃39;＆lt;＆＃39;用＆＃39;＆amp; lt＆＃39;和＆＃39;＆gt;＆＃39;与＆＃39;＆amp; gt＆＃39;。我猜是标志的短形式。我仍然不知道为什么会这样。我想是webservice / API中的一些错误。

Answer 1

我刚跑了这个：

    import urllib2

    url='http://www.google.com'
    data = urllib2.urlopen(url).read()
    print data

我得到了很多＆lt;和＆gt;，包括最后一行</script></body></html>

您是否可以发布一些详细信息，例如您尝试访问的网址和data的值？