for循环问题

时间:2014-03-02 21:48:53

标签: python for-loop web-scraping beautifulsoup

我遇到了for循环的问题。在脚本中,我使用文本列表来构建URL,然后为列表的每个元素运行for循环。拥有所有网址后,我想从网站上提取信息。这就是我遇到问题的地方。

我检查了程序,它正在构建正确的URL,但我不知道如何仅使用第一个URL提取所有外观元素的信息。

拜托,任何人都知道我哪里出错了?

import urllib2
import re
from bs4 import BeautifulSoup
import time

date = date = (time.strftime('%Y%m%d'))


symbolslist = open('pistas.txt').read().split()


for symbol in symbolslist:
  url = "http://trackinfo.com/entries-race.jsp?raceid=" + symbol + "$" + date +"A01"
  htmltext = BeautifulSoup(urllib2.urlopen(url).read())
  names=soup.findAll('a',{'href':re.compile("dog")})
  for name in names:
      results = ' '.join(name.string.split())
      print results

那是文本列表:

GBM
GBR
GCA
GDB
GSP
GDQ
GEB

1 个答案:

答案 0 :(得分:1)

嘿,伙计,试试这个:

import urllib2
import re
from bs4 import BeautifulSoup
import time

date = (time.strftime('%Y%m%d'))


symbolslist = open('pistas.txt').read().split()


for symbol in symbolslist:
  url = "http://trackinfo.com/entries-race.jsp?raceid=" + symbol + "$" + date +"A01"
  htmltext = BeautifulSoup(urllib2.urlopen(url).read())
  names=htmltext.findAll('a',{'href':re.compile("dog")})
  for name in names:
    results = ' '.join(name.string.split())
    print results