Python爬虫无法正常工作

时间:2017-10-03 01:19:27

标签: python web-scraping request scrapy web-crawler

我想抓住(http://mokorea.com/yp_business_list_major.php?cat=4

上的所有商家名称链接

这是我的Python代码:

from __future__ import unicode_literals

import requests
from scrapy.selector import Selector

def fetch_page(url):
    '''1. 웹페이지 다운로드'''
    r = requests.get(url)
    return r.text

def upso_list_from_listpage(url):
    '''2.목록 페이`enter code here`지에서 강의 링크등 추출'''
    html = fetch_page(url)
    sel = Selector(text=html)
    upso_list = sel.xpath('//*[@id="List_0"]/div[4]').extract()
    #upso_list = sel.css('.container results .talk-link .media__message a::attr(herf)').extract()
    return upso_list
from pprint import pprint
pprint(upso_list_from_listpage('http://mokorea.com/yp_business_list_major.php?cat=4'))

我尝试在提示符下运行py文件,没有任何显示。

1

任何评论都会有所帮助。

1 个答案:

答案 0 :(得分:0)

这是AJAX生成的页面。

您可以使用此link和xpath选择器,如下所示:

sel.xpath('//*[@id="List_0"]/div[4]/span/a/text()').extract()

在这里,您将从第一行获取文本。之后你应该:

  1. 通过div id(" List_0"," List_1"等)进行迭代以获得另一行。
  2. 分析所包含链接中的GET参数,更正它们并循环所需(特别是page