如何在文本文件python上使用.split()函数循环

时间:2013-11-18 05:48:41

标签: python web-scraping

我有一个html文件,在整个文件中写入了不同的团队名称。我只是想抓住球队的名字。团队名称总是在某些文本之后出现并在某些文本之前结束,因此我将分割函数以查找团队名称。我是初学者,我敢肯定我会让它变得更难。数据是文件

teams = data.split('team-away">')[1].split("</sp")[0]
    for team in teams:
        print team

这将返回它找到的第一个团队的每个角色(例如,如果团队=旧金山49人队,则打印“S”,然后打印“A”等,而不是我需要它执行的操作:打印“旧金山49人队”然后在下一线下一队“卡罗莱纳黑豹队”等。

谢谢!

2 个答案:

答案 0 :(得分:2)

“我是初学者,我敢肯定我会让它变得更难。”

嗯,有点。

import re
teams = re.findall('team-away">(.*)</sp', data)

(归功于Kurtis,比我原来的简单正则表达式)

虽然实际的HTML parser是最佳做法。

答案 1 :(得分:0)

不要重新发明轮子!查看BeautifulSoup,它将为您完成工作。