如何从一个网站(包括第三方)获得所有cookie?

时间:2019-06-27 09:39:36

标签: cookies

我被要求编写一个网络爬虫,列出所有cookie(包括第三方,例如Youtube),然后在提供额外信息(例如cookie的用途)的数据库中对其进行检查。用户将其地址写在搜索栏中,然后接收信息。

问题是:我完全迷路了!我几乎不知道从哪里开始,做什么,这开始让我感到头疼。 我可以考虑一下逻辑,但我知道这不应该是一个难题,但是我必须使用什么?

我主要用Python尝试了Selenium(仍然不知道它如何工作),我看过Java甚至考虑过C#,但是问题是我不知道从哪里开始,是什么?用做它。我迈出的每一步都像攀登一堵墙,只是掉到另一侧并找到一堵更大的墙。

我只要求提供一些指导,不需要实际的代码。

2 个答案:

答案 0 :(得分:0)

好了,所以我终于有了想法。诀窍是Python + Selenium + ChromeDriver。完成所有步骤后,我将在以后发布更多详细信息。

使用Python 3,这足以连接到站点并获得cookie的输出(在这种情况下,它们存储在myuserdir / Documents / Default / cookies中):

from selenium import webdriver
import sys

co = webdriver.ChromeOptions()
co.add_argument("user-data-dir={}".format("C:\\Users\\myuserdir\\Documents"))

driver = webdriver.Chrome(chrome_options = co) 
driver.get("http://www.example.com)

答案 1 :(得分:0)

from selenium import webdriver
from selenium.webdriver.firefox.options import Options
def getCookies(self):
    options = Options()
    options.headless = True
    driver = webdriver.Firefox(options=options, executable_path=r'./geckodriver')

    driver.get(self.website_url)
    cookie = driver.get_cookies()
    driver.quit()
    return cookie

我使用的方法是使用get_cookies()存储cookie文件以供将来使用。但是有时您需要模拟js流程才能通过JavaScript代码加载Cookie。