如何使用Python 3从HTML标记获取值

时间:2017-04-16 18:47:18

标签: python html regex list

如何在不使用Python 3的Beautiful Soup的情况下获取标签之间的html值? 我试图从标签之间的值中列出一个列表。 我该怎么做?我会使用正则表达式吗?

<td class="standing-table__cell standing-table__cell--name">Chelsea</td>
<td class="standing-table__cell standing-table__cell--name">Tottenham</td>
<td class="standing-table__cell standing-table__cell--name">Liverpool</td>

我如何获得像'切尔西','托特纳姆','利物浦'这样的价值?

谢谢

1 个答案:

答案 0 :(得分:0)

我推荐使用bs4,但是如果你想使用正则表达式:

my_str = '<td class="standing-table__cell standing-table__cell--name">Chelsea</td>'  
match = re.search('>(.*?)</', my_str)  
if match : 
    match = match.group(1)

这将匹配html标签之间的任何字符串

print(match)
Chelsea

请注意search将返回第一场比赛(如果有的话,否则为无) 如果您想要所有出现,请使用findall代替