无法从其他页面收集数据

时间:2017-09-13 20:44:15

标签: python python-3.x post web-scraping

我在python中编写了一个脚本,使用post请求从网页获取数据。该网页使用下一个或下拉按钮遍历57页。到目前为止我所写的内容只能从第一页获取数据。我尝试了很多方法来找到一种方法来捕获通过它的下一页但仍然失败的数据。如何从57个页面中获取数据?提前谢谢。

这是我到目前为止所尝试的内容:

import requests
from lxml import html

with requests.session() as session:
    session.headers = {"User-Agent":"Mozilla/5.0"}
    page = session.post("http://registers.centralbank.ie/(X(1)S(cvjcqdbijraticyy2ssdyqav))/FundSearchResultsPage.aspx?searchEntity=FundServiceProvider&searchType=Name&searchText=&registers=6%2c29%2c44%2c45&AspxAutoDetectCookieSupport=1", 
            data={'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages':'2'}, 
            headers={'Content-Type': 'application/x-www-form-urlencoded'})


    tree = html.fromstring(page.text)
    titles = tree.cssselect("table")[1]
    list_row =[[tab_d.text_content() for tab_d in item.cssselect('td.gvwColumn,td.entityNameColumn,td.entityTradingNameColumn')]
                for item in titles.cssselect('tr')]

for data in list_row:
    print(' '.join(data))

这是该页面的The Link

顺便说一句,我没有找到任何分页链接,除了请求参数中的“数据”之外,我可以通过该链接进行下一页,其中有一个页码选项,当单击按钮时该选项会发生变化。但是,更改该号码不会带来其他页面的数据。

0 个答案:

没有答案