BeautifulSoup无法提取元数据

时间:2011-05-22 10:19:00

标签: python metadata beautifulsoup web-scraping

我正在尝试创建一个函数,该函数将从给定的URL中提取元关键字并将其返回。但无论我传递给哪个URL,它都会失败。

def GetKeywords(url):
  soup = BeautifulSoup(url)
  keywords = soup.findAll('meta', attrs={'name':re.compile("^keywords$", re.I)}) #Find all meta keywords on that page
  if len(keywords) == 0: #Check to see if that page has any meta keywords to begin with
    print "No meta keywords for: " + str(url)
    return -1
  else:  #If so then return them
    return keywords

1 个答案:

答案 0 :(得分:3)

BeautifulSoup声明接受获取网址的位置在哪里?

soup = BeautifulSoup(url)

很抱歉,请先阅读BeautifulSoup文档 ,而不是尝试和猜测API方法。

http://www.crummy.com/software/BeautifulSoup/documentation.html#Parsing一份文件

你想要的是使用Python的urllib2模块来获取你自己的数据 在将它喂入BeautifulSoup之前,或者你看看scrapy模块之类的东西。