我在处理来自网络的XML文件时遇到了困难。它不是我的XML所以我无法修改格式。
import urllib
import xml.etree.ElementTree as ET
xmls = urllib.request.urlopen('http://odds.smarkets.com/oddsfeed.xml')
tree = ET.ElementTree(ET.fromstring(xmls.read())
但它给了我一个ParseError:格式不正确(无效令牌):第1行,第0列
我认为它可能与编码方式有关,但我对编码一无所知,当我通过Chared运行它时,它说utf_8。
我也试过使用BeautifulSoup,但似乎只读了第一行
<?xml version=1.0" encoding="utf-8"?>
答案 0 :(得分:2)
不要重新发明轮子并使用特殊库来解析XML Feed - feedparser
:
from pprint import pprint
import feedparser
d = feedparser.parse('http://odds.smarkets.com/oddsfeed.xml')
pprint(d['feed'])
打印:
{'contract': {'id': '16696354',
'name': 'Arthur Burrell',
'slug': 'arthur-burrell'},
'event': {'date': '2016-07-01',
'id': '741548',
'name': '14:10',
'parent': 'Newton Abbot',
'parent_slug': 'newton-abbot',
'slug': 'newton-abbot-2016-07-01T00:00:00-14-10',
'time': '13:10:00',
'type': 'horse racing race',
'url': '/sport/horse-racing/newton-abbot/2016/07/01/14:10'},
'market': {'id': '5464210', 'slug': 'to-place', 'winners': '3'},
'odds': {'timestamp': '2016-07-01T 1:40:15'},
'price': {'backers_stake': '2.50',
'decimal': '1.35',
'liability': '7.14',
'percent': '74.07'}}
答案 1 :(得分:1)
使用lxml
版本的ElementTree解析我的文件就好了。所以我现在正在使用它。