HTML解析Python(HTML与完整网站)

时间:2017-04-09 01:40:27

标签: python html parsing urllib

我正在尝试从包含有关火车票和价格信息的网站解析html(下面的源代码),但是当我使用urllib请求html时,我遇到了从网站上取回所有html的问题。

我需要的是每张票的价格,当我使用urllib请求html时似乎没有出现。在做了一些调查工作之后,我确定如果我用chrome保存网页并选择“仅HTML”,我就不会得到价格,但如果我选择“完成网页”,我会这样做。无论如何,当我下载“完整网页”并在python中使用它时,我会看到HTML。或者有没有办法自动下载完整的网页,并使用下载的文件在python中解析。

谢谢, 乔治

https://www.raileurope.com/en/us/point_to_point/ptp_results.htm?execution=e3s1&resultId=147840746&cobrand=public&saleCountry=us&resultId=147840746&cobrand=public&saleCountry=us&itemId=-1&fn=fsRequest&cobrand=public&c=USD&roundtrip=0&isAtocRequest=0&georequest=1&lang=en&route-type=0&from0=paris&to0=amsterdam&deptDate0=06%2F07%2F2017&time0=8&pass-question-radio=1&nCountries=&selCountry1=&selCountry2=&selCountry3=&selCountry4=&selCountry5=&familyId=&p=0&additionalTraveler0=adult&additionalTravelerAge0=&paxIds=&nA=1&nY=0&nC=0&nS=0

1 个答案:

答案 0 :(得分:0)

看看selenium
由于网站由JS呈现,您必须使用webdriver来模拟" Click"。
您将需要一个爬虫而不是一个简单的刮刀