我被要求编写一个网络爬虫,列出所有cookie(包括第三方,例如Youtube),然后在提供额外信息(例如cookie的用途)的数据库中对其进行检查。用户将其地址写在搜索栏中,然后接收信息。
问题是:我完全迷路了!我几乎不知道从哪里开始,做什么,这开始让我感到头疼。 我可以考虑一下逻辑,但我知道这不应该是一个难题,但是我必须使用什么?
我主要用Python尝试了Selenium(仍然不知道它如何工作),我看过Java甚至考虑过C#,但是问题是我不知道从哪里开始,是什么?用做它。我迈出的每一步都像攀登一堵墙,只是掉到另一侧并找到一堵更大的墙。
我只要求提供一些指导,不需要实际的代码。
答案 0 :(得分:0)
好了,所以我终于有了想法。诀窍是Python + Selenium + ChromeDriver。完成所有步骤后,我将在以后发布更多详细信息。
使用Python 3,这足以连接到站点并获得cookie的输出(在这种情况下,它们存储在myuserdir / Documents / Default / cookies中):
from selenium import webdriver
import sys
co = webdriver.ChromeOptions()
co.add_argument("user-data-dir={}".format("C:\\Users\\myuserdir\\Documents"))
driver = webdriver.Chrome(chrome_options = co)
driver.get("http://www.example.com)
答案 1 :(得分:0)
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
def getCookies(self):
options = Options()
options.headless = True
driver = webdriver.Firefox(options=options, executable_path=r'./geckodriver')
driver.get(self.website_url)
cookie = driver.get_cookies()
driver.quit()
return cookie
我使用的方法是使用get_cookies()
存储cookie文件以供将来使用。但是有时您需要模拟js流程才能通过JavaScript代码加载Cookie。