我的代码有什么问题。我正在使用python尝试数据抓取

时间:2012-06-22 20:15:09

标签: python web-scraping screen-scraping

我正在努力打印nba选秀中的前三十个选秀权。我正在使用页面:http://nbadraft.net/2012mock_draft获取信息。当它运行时它说:

invalid syntax: python1.py, line 8, pos 28
File "/Users/seanyeh/Downloads/python1.py", line 8, in ?
  patFinderLink = re.compile(‘<link rel.*href=”(.*)” />’)

所以这是我的代码:

import urllib2
from BeautifulSoup import BeautifulSoup
# or if your're using BeautifulSoup4:
# from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://nbadraft.net/2012mock_draft').read())

patFinderLink = re.compile(‘<link rel.*href=”(.*)” />’)

findPatLink = re.findall(patFinderLink,webpage)

listIterator = []
listIterator[:] = range(1,30)

for i in listIterator:
    print findPatLink[i]

1 个答案:

答案 0 :(得分:3)

你在这一行上有一些有趣的角色(也许这是由于剪切和粘贴?)

 ‘<link rel.*href=”(.*)” />’)

另外,我相信你错过了

 import re
你的代码中的

。我也收到webpage未定义的错误。

由于您使用的是BeautifulSoup,为什么不使用 it 来提取您感兴趣的元素? BeautifulSoup的整个想法是避免使用字符串操作或正则表达式进行“手动”解析。