所以我有一个问题;如何从网页获取文件以及附加到它们的URL。例如,Google.com
所以我们去google.com并打开firebug(Mozilla / chrome)并转到"网络" 然后,我们会看到每个附加文件的位置,以及文件的扩展名。
我如何在python中执行此操作?
对于url的东西,我通常会查看urllib / mechanize / selenium,但这些似乎都不支持我想要的内容,或者我不知道与之相关的代码。
我正在使用linux python 2.7 - 任何帮助/答案都会很棒。感谢任何试图回答此问题的人。
编辑:后端服务器生成的东西,我不知道如何在“网络”中使用萤火虫"或"网络"部分显示此信息。我想知道是否可以在python中实现一些如何。
答案 0 :(得分:0)
从它的外观来看,你可以从这里修改答案Download image file from the HTML page source using python?,除了修改它以查找<script>
(对于js)和<link>
(对于css)和无论你需要什么。
答案 1 :(得分:0)
解析网页并找到所有“附加”文件的链接并不困难,例如(css,icon,js,images等)将由浏览器提取,您可以在'网络小组。
更难的部分是使用ajax通过javascript获取一些文件。唯一的方法(完全和正确)是模拟浏览器(解析html + css并运行javascripts),我认为python不能这样做。