我尝试使用python从网站获取所有cookie(包括由javascript设置的cookie)。目前,我尝试使用请求模块。
http cookie不是问题。我可以抓住它们:
response = requests.get("http://example.com")
http_cookies = response.cookies
由javascript设置的cookie有点棘手。
我使用正则表达式从网站上的所有<script ..>...</script>
标签和集成的JavaScripts来源<script ... src="...">
中搜索内容。
现在,我有一个包含字符串的大列表,其中包含页面上的所有JavaScript。我相信由javascript设置的所有cookie的格式均为document.cookie = "...";
。是吗?
我认为我可以使用javascript代码在列表中搜索带有正则表达式的document.cookie = "...";
之类的子字符串。
我是对的吗?我只对cookie名称感兴趣。例如_ga
用于Google Analytics(分析)。
感谢您的帮助!
答案 0 :(得分:0)
正如Chris所说,无法使用该正则表达式搜索Cookie,因为可以通过多种方式设置Cookie,而不仅限于document.cookie
。
我建议使用模仿浏览器的Selenium,您可以在其中使用以下命令获取Cookie:
import pickle
import selenium.webdriver
driver = selenium.webdriver.Firefox()
driver.get("http://www.google.com")
pickle.dump( driver.get_cookies() , open("cookies.pkl","wb"))