我从html源中提取一些数据时遇到了一些问题。
以下是我的html源代码的sniffit,我想在每个
中提取字符串值关注
<td class="gamedate">10/12 00:59</b></td>
<td class="gametype">오버언더</b></td>
<td class="legue"><nobr style="width:100%;overflow:hidden;letter-spacing:-1;font-size:11px;"><nobr style='display:block; overflow:hidden;'><img src='../data/banner/25' border='0' width='20' height='13' alt='' align='absmiddle'></a> 그리스 D2</nobr>
<td class="bet" id="team1_27771" class="homeTeam1">Pas Giannina (↑오버)</td>
<td class="bet" id="bet1_27771" class="homeTeam2" align="right">1.65</td>
<td class="pointer muSelect" id="chk_27771_3" num='27771' bet='2.5' sp='오버언더' bgcolor="f0f0f0" class="handy handy1" ><span id="bet3_27771">2.5</span></td>
<td class="bet" id="bet2_27771" class="awayTeam2" align="left">1.95</td>
<td class="bet" id="team2_27771" class="awayTeam1">Pierikos (↓언더)</td>
所以我想要提取的最终值是
10/12 00:59
오버언더
그리스 D2
Pas Giannina (↑오버)
1.65
2.5
1.95
Pierikos (↓언더)
以下是我的html完整资源
请帮帮我!提前谢谢!因为html源代码很大所以我上传到了pastebin.com
答案 0 :(得分:1)
为什么不直接对字符串
进行替换html.replace("AAAAAA", "Put what you want for AAAAAA here")
并为要替换的所有内容执行此操作?
忽略,我想念我的大脑一定不能完全阅读这个问题
答案 1 :(得分:0)
您可以使用HTMLParser
答案 2 :(得分:0)
这样的东西适用于基本表:
soup = BeautifulSoup.BeautifulSoup(YOUR_HTML)
table = soup.find('TABLE_ID')
for td in table.findAll('td'):
print td.string
但看起来你正在处理的HTML有点麻烦。也许最好按类名追踪每个TD?例如
soup = BeautifulSoup.BeautifulSoup(YOUR_HTML)
#game date
game_dates = soup.findAll('td', {class: 'gamedate' })
for game_date in game_dates:
print game_date
#bets
bets = soup.findAll('td', {class: 'bet' })
for bet in bets:
print bet