我需要学习什么python库才能抓住这个网站?

时间:2013-08-31 13:55:53

标签: python web-scraping

我想从以下网站下载所有星期日填字游戏。

http://epaper.timesofindia.com/Default/Client.asp?skin=pastissues2&enter=LowLevel

我可以手动搜索" Sunday Crossword"并获得我需要的所有结果。但结果全部在javascript弹出窗口中打开。

http://epaper.timesofindia.com/Default/Scripting/SearchView.asp?skin=pastissues2&AppName=2&sPublication=TOIM&y=11&Content=ALL&sQuery=SUNDAY+CROSSWORD&sScope=P&x=13&ContentType=on&sSorting=IssueDateID%2Casc&sLanguage=en&Offset=1

我需要学习/使用什么python库来处理这样的问题?

我知道urllib的基本知识。可以用于此特定目的吗?

我是一个相对较新的程序员,并且不太了解网络技术。因此,任何关于阅读哪些资源的建议都会有所帮助。

1 个答案:

答案 0 :(得分:1)

Selenium是一个很好的工具。由于它驱动一个真正的浏览器,它可以处理JavaScript弹出窗口。

以下是文档的链接:https://selenium-python.readthedocs.org/en/latest/getting-started.html

和一些视频教程:

http://pyvideo.org/search?models=videos.video&q=selenium