我正在从网址检索数据:
data = urllib2.urlopen(url).read()
但是,我注意到没有标签。这是因为"<"和">"被";"取代字符。其他一切都完好无损。 所以:
<foo>bar</foo>
已更改为;foo;bar;/foo;
我该如何解决这个问题?为什么会这样?
[编辑]:我发现了如何修复它。显然,它正在取代&#39;&lt;&#39;用&#39;&amp; lt&#39;和&#39;&gt;&#39;与&#39;&amp; gt&#39;。我猜是标志的短形式。我仍然不知道为什么会这样。我想是webservice / API中的一些错误。
答案 0 :(得分:0)
我刚跑了这个:
import urllib2
url='http://www.google.com'
data = urllib2.urlopen(url).read()
print data
我得到了很多&lt;和&gt;,包括最后一行</script></body></html>
您是否可以发布一些详细信息,例如您尝试访问的网址和data
的值?