从多于一页的页面抓取(循环)

时间:2019-10-28 08:13:13

标签: python csv web-scraping

我对编码一无所知,并且刚刚开始学习!我和我的团队被分配了从网站抓取数据的任务:

URL:https://sg.hotels.com/search.do?q-destination=Singapore&destination-id=10233154&as-shown=false&q-localised-check-in=14%2F04%2F2020&q-check-in=2020-04-14&q-localised-check-out=15%2F04%2F2020&q-check-out=2020-04-15&q-rooms=1&q-room-0-adults=2&q-room-0-children=0&providerInfoTypes=LOCAL%2CMULTISOURCE%2CGDS%2CTPI&page-name=HomePage

要从Hotels.com(新加坡)获取数据,并提供诸如地址,姓名和等级(星级)之类的信息。

我们在课堂上了解到,有一个程序(Beautiful Soup)可以让我们抓取信息,但是我们仅设法完成了一页(但是有多个条目,大约700多个),我们无法捕获它。 。

任何善良的灵魂都可以通过在python上使用漂亮的汤来帮助所需的代码,以爬取数据,然后最终将其导出到CSV文件?然后我们将其转换为Tableu支持的XML文件以进行可视化。

非常感谢你们的帮助和智慧。 :)

使用了漂亮的汤,但只能检索到有限的条目


```import requests

```page_link = 'https://sg.hotels.com/search.do?resolved-location=COUNTRY%3A10233154%3AUNKNOWN%3AUNKNOWN&f-bed-type=1&destination-id=10233154&q-destination=Singapore&q-check-in=2020-04-14&q-check-out=2020-04-15&q-rooms=1&q-room-0-adults=2&q-room-0-children=0'

Expected results would preferably be a csv entry with 3 columns (Name, Address and Rating)

0 个答案:

没有答案