我目前正在使用Beautiful Soup来解析网页的HTML。但是,我还想以递归方式解析网页上的任何.js文件。我的目标是查找嵌入在网站的HTML或javascript中的某些URL。我可以用基本的HTML页面来做,但进入javascript文件是让我感到难过。有什么帮助吗?
答案 0 :(得分:0)
按照this StackOverflow question接受的答案中列出的步骤进行操作。然后,您可以使用例如优秀的requests library:
来请求资源import requests
r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js")
然后,您可以搜索r.text
using regex以查找您要查找的任何链接。
如果您仍然需要解析javascript,那么一旦您拥有了javascript,this StackOverflow question的最新答案就会推荐slimit。