我有一个html文件,在整个文件中写入了不同的团队名称。我只是想抓住球队的名字。团队名称总是在某些文本之后出现并在某些文本之前结束,因此我将分割函数以查找团队名称。我是初学者,我敢肯定我会让它变得更难。数据是文件
teams = data.split('team-away">')[1].split("</sp")[0]
for team in teams:
print team
这将返回它找到的第一个团队的每个角色(例如,如果团队=旧金山49人队,则打印“S”,然后打印“A”等,而不是我需要它执行的操作:打印“旧金山49人队”然后在下一线下一队“卡罗莱纳黑豹队”等。
谢谢!
答案 0 :(得分:2)
“我是初学者,我敢肯定我会让它变得更难。”
嗯,有点。
import re
teams = re.findall('team-away">(.*)</sp', data)
(归功于Kurtis,比我原来的简单正则表达式)
虽然实际的HTML parser是最佳做法。
答案 1 :(得分:0)
不要重新发明轮子!查看BeautifulSoup,它将为您完成工作。