Question

我想抓住（http://mokorea.com/yp_business_list_major.php?cat=4）

上的所有商家名称链接

这是我的Python代码：

from __future__ import unicode_literals

import requests
from scrapy.selector import Selector

def fetch_page(url):
    '''1. 웹페이지 다운로드'''
    r = requests.get(url)
    return r.text

def upso_list_from_listpage(url):
    '''2.목록 페이`enter code here`지에서 강의 링크등 추출'''
    html = fetch_page(url)
    sel = Selector(text=html)
    upso_list = sel.xpath('//*[@id="List_0"]/div[4]').extract()
    #upso_list = sel.css('.container results .talk-link .media__message a::attr(herf)').extract()
    return upso_list
from pprint import pprint
pprint(upso_list_from_listpage('http://mokorea.com/yp_business_list_major.php?cat=4'))

我尝试在提示符下运行py文件，没有任何显示。

任何评论都会有所帮助。

Answer 1

这是AJAX生成的页面。

您可以使用此link和xpath选择器，如下所示：

sel.xpath('//*[@id="List_0"]/div[4]/span/a/text()').extract()

在这里，您将从第一行获取文本。之后你应该：

通过div id（＆＃34; List_0＆＃34;，＆＃34; List_1＆＃34;等）进行迭代以获得另一行。
分析所包含链接中的GET参数，更正它们并循环所需（特别是page）

Python爬虫无法正常工作

1 个答案: