如何解析从Web到ElementTree的格式不正确的XML

时间:2016-07-01 01:35:29

标签: python xml elementtree

我在处理来自网络的XML文件时遇到了困难。它不是我的XML所以我无法修改格式。

import urllib
import xml.etree.ElementTree as ET

xmls = urllib.request.urlopen('http://odds.smarkets.com/oddsfeed.xml')

tree = ET.ElementTree(ET.fromstring(xmls.read())

但它给了我一个ParseError:格式不正确(无效令牌):第1行,第0列

我认为它可能与编码方式有关,但我对编码一无所知,当我通过Chared运行它时,它说utf_8。

我也试过使用BeautifulSoup,但似乎只读了第一行

<?xml version=1.0" encoding="utf-8"?>

2 个答案:

答案 0 :(得分:2)

不要重新发明轮子并使用特殊库来解析XML Feed - feedparser

from pprint import pprint

import feedparser

d = feedparser.parse('http://odds.smarkets.com/oddsfeed.xml')
pprint(d['feed'])

打印:

{'contract': {'id': '16696354',
              'name': 'Arthur Burrell',
              'slug': 'arthur-burrell'},
 'event': {'date': '2016-07-01',
           'id': '741548',
           'name': '14:10',
           'parent': 'Newton Abbot',
           'parent_slug': 'newton-abbot',
           'slug': 'newton-abbot-2016-07-01T00:00:00-14-10',
           'time': '13:10:00',
           'type': 'horse racing race',
           'url': '/sport/horse-racing/newton-abbot/2016/07/01/14:10'},
 'market': {'id': '5464210', 'slug': 'to-place', 'winners': '3'},
 'odds': {'timestamp': '2016-07-01T 1:40:15'},
 'price': {'backers_stake': '2.50',
           'decimal': '1.35',
           'liability': '7.14',
           'percent': '74.07'}}

答案 1 :(得分:1)

使用lxml版本的ElementTree解析我的文件就好了。所以我现在正在使用它。