使用ipython和lxml进行网络抓取

时间:2015-07-06 05:50:25

标签: python beautifulsoup

我想从这个网站获取menu items

http://new.holachef.com/daily_menus?menu_date=2015-07-06 

使用以下代码来定位文本所在的元素:

from urllib2 import urlopen
from lxml.html import fromstring

def get_page(url):
    html = urlopen(url).read()
    dom = fromstring(html)
    dom.make_links_absolute(url)
    return dom

dom = get_page("http://new.holachef.com/daily_menus?menu_date=2015-07-06")
dom.cssselect("#store_item_64419 > ul > li.meal-discription.clearfix > div.col-xs-8 > h2 > a")

然而我得到一个空输出:

In [9]: dom.cssselect("#store_item_64419 > ul > li.meal-discription.clearfix > div.col-xs-8 > h2 > a")
Out[9]: []

我想在<a>标记内找到文字。

1 个答案:

答案 0 :(得分:0)

我认为您的脚本正在运行此模式,要求用户选择其位置。