我刚接触到这里。最近,我想从Agoda获取数据,我遇到了一个问题,agoda.com没有提供"下一页"的网址(或href)。所以我不知道改变页面。现在,我只从第1页获取数据,但我需要来自page2,page3的数据...... 有人帮助我。我需要一些建议,工具或其他。顺便说一句,我使用python3和win10.Please帮助我,谢谢你。 以下是我目前的代码。
import requests
import pandas as pd
import csv
from bs4 import BeautifulSoup
from pandas import Series,DataFrame
import unicodecsv
def name1():
url="https://www.agoda.com/zh-tw/pages/agoda/default/DestinationSearchResult.aspx?asq=%2bZePx52sg5H8gZw3pGCybdmU7lFjoXS%2baxz%2bUoF4%2bbAw3oLIKgWQqUpZ91GacaGdIGlJ%2bfxiotUg7cHef4W8WIrREFyK%2bHWl%2ftRKlV7J5kUcPb7NK6DnLacMaVs1qlGagsx8liTdosF5by%2fmvF3ZvJvZqOWnEqFCm0staf3OvDRiEYy%2bVBJyLXucnzzqZp%2fcBP3%2bKCFNOTA%2br9ARInL665pxj%2fA%2bylTfAGs1qJCjm9nxgYafyEWBFMPjt2sg351B&city=18343&cid=1732641&tag=41460a09-3e65-d173-1233-629e2428d88e&gclid=Cj0KEQjwvve_BRDmg9Kt9ufO15EBEiQAKoc6qlyYthgdt9CgZ7a6g6yijP42n6DsCUSZXvtfEJdYqiAaAvdW8P8HAQ&tick=636119092231&isdym=true&searchterm=%E5%A2%BE%E4%B8%81&pagetypeid=1&origin=TW&cid=1732641&htmlLanguage=zh-tw&checkIn=2016-10-20&checkOut=2016-10-21&los=1&rooms=1&adults=2&children=0&isFromSearchBox=true&ckuid=1b070b17-86c2-4376-a4f5-d3b98fc9cf45"
source_code=requests.get(url)
plain_text=source_code.text
soup=BeautifulSoup(plain_text,"lxml")
hotelname=soup.find_all("h3",{"class":"hotel-name"})
f = csv.writer(open("test.csv", "w",newline=''))
f.writerow(["hotelname","address"])
p = []
for N in hotelname:
a=N.string.strip()
f.writerow([a])
答案 0 :(得分:0)
仔细检查浏览器开发工具,单击下一步按钮时会发生什么。
它有点击事件,发送带有大量参数的xhr post请求。其中一个参数是PageNumber
。参数的大多数值都很容易获得,可能除了SearchMessageID
,你必须在页面的某个地方找到或由javascript生成。