训练用scrapely提取href属性

时间:2016-06-09 16:50:23

标签: python web-scraping scrapely

我正在使用Scrapely从HTML中提取数据字段。使用train,然后根据文档scrape无法从链接中提取href属性。有没有办法以类似的方式提取href属性来从元素中提取文本?

from scrapely import Scraper
s = Scraper()

url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'vers_url': 'https://pypi.python.org/pypi/w3lib/1.14.2'}
s.train(url1, data)

url2 = 'http://pypi.python.org/pypi/Django/1.3'
print(s.scrape(url2)) 
# Prints {u'vers_url': [u'\n<span>1.10a1</span>\n']}], should print a url

在上面的培训示例中,给出的网址是该网页上href标记的唯一a属性,因此我希望该算法能够学会找到它。

0 个答案:

没有答案