使用python解析网页上的HTML和脚本?

时间:2014-10-03 21:33:55

标签: javascript python html

我目前正在使用Beautiful Soup来解析网页的HTML。但是,我还想以递归方式解析网页上的任何.js文件。我的目标是查找嵌入在网站的HTML或javascript中的某些URL。我可以用基本的HTML页面来做,但进入javascript文件是让我感到难过。有什么帮助吗?

1 个答案:

答案 0 :(得分:0)

按照this StackOverflow question接受的答案中列出的步骤进行操作。然后,您可以使用例如优秀的requests library

来请求资源
import requests

r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js")

然后,您可以搜索r.text using regex以查找您要查找的任何链接。

如果您仍然需要解析javascript,那么一旦您拥有了javascript,this StackOverflow question的最新答案就会推荐slimit