下载python中的所有外部和内部JavaScript文件

时间:2014-08-11 09:33:30

标签: python web-scraping

我想知道如何从网页下载所有外部javascripts文件和内部javascript代码。是否有任何图书馆或示例开始?

1 个答案:

答案 0 :(得分:2)

Beautiful Soup是一个广泛使用的Python网页抓取库。

这是一个简单的示例,演示如何在页面中检索JavaScript源路径和内部脚本:

from bs4 import BeautifulSoup
import urllib2

url = "http://example.com/"
soup = BeautifulSoup(urllib2.urlopen(url).read()) 

sources = []
scripts = []

for script in soup('script', {'type': 'text/javascript'}):
    src = script.get('src')
    if src:  
        sources.append(src)   
    else:  
        scripts.append(script.text)

print scripts
print sources