Html和汤的结果有所不同

时间:2012-10-20 17:43:04

标签: python web-scraping beautifulsoup

我和Beautifulsoup有些困难。

你可以在这里找到html - > http://pastebin.com/Nr1k0dcM

之后我只需运行soup = BeautifulSoup(html) print soup.prettify()

html的结果应该没有任何差别,但我只能得到这个> http://pastebin.com/Y6DmEj40

我真的不明白这里发生了什么......

编辑:

这是我正在废弃的网址之一:http://fantasy.premierleague.com/entry/38861/event-history/8/

我只是将html从中删除,否则我收到以下错误:

HTMLParser.HTMLParseError: bad end tag: u"</scri'+'pt>", at line 89, column 222

所以我现在正在做的是以下

response = requests.get(url, headers=headers)
html = response.text
tablestart = html.find('<!-- pitch view -->') + 19
tableend = html.find('<!-- end ismPitch -->')
html = html[tablestart:tableend]
soup = BeautifulSoup(html)

1 个答案:

答案 0 :(得分:1)

我会以这种方式实现您的上述代码

import urllib2
from bs4 import BeautifulSoup
response = urllib2.urlopen("http://fantasy.premierleague.com/entry/38861/event-history/8/")
html = response.read()
tablestart = html.find('<!-- pitch view -->') + 19
print tablestart
tableend = html.find('<!-- end ismPitch -->')
print tableend
html = html[tablestart:tableend]
soup = BeautifulSoup(html)

上述代码的输出是

55594
92366