使用python获取附加到URL的文件

时间:2015-09-15 15:44:57

标签: python url networking request

所以我有一个问题;如何从网页获取文件以及附加到它们的URL。例如,Google.com

所以我们去google.com并打开firebug(Mozilla / chrome)并转到"网络" 然后,我们会看到每个附加文件的位置,以及文件的扩展名。

我如何在python中执行此操作?

对于url的东西,我通常会查看urllib / mechanize / selenium,但这些似乎都不支持我想要的内容,或者我不知道与之相关的代码。

我正在使用linux python 2.7 - 任何帮助/答案都会很棒。感谢任何试图回答此问题的人。

编辑:后端服务器生成的东西,我不知道如何在“网络”中使用萤火虫"或"网络"部分显示此信息。我想知道是否可以在python中实现一些如何。

2 个答案:

答案 0 :(得分:0)

从它的外观来看,你可以从这里修改答案Download image file from the HTML page source using python?,除了修改它以查找<script>(对于js)和<link>(对于css)和无论你需要什么。

答案 1 :(得分:0)

解析网页并找到所有“附加”文件的链接并不困难,例如(css,icon,js,images等)将由浏览器提取,您可以在'网络小组。

更难的部分是使用ajax通过javascript获取一些文件。唯一的方法(完全和正确)是模拟浏览器(解析html + css并运行javascripts),我认为python不能这样做。