是否有可能(有没有工具)来抓取登录后面的页面(不是内容,只是网址)?我们正在寻找创建一个新网站,并需要索引旧网站上的每个页面,以捕获所有内容,内容类型,将所有网址映射到新网站等...我有一个登录,我是不希望将此添加到谷歌或任何东西。
尖叫青蛙不会这样做。 我不能让当前网站的开发人员参与进来 - 所以在服务器上放一个脚本也不行。还有其他办法吗?答案 0 :(得分:0)
是的,您可以将您的抓取工具与“SELENIUM”集成。提供登录凭据,您就可以完成工作了。 很少有可以帮到你的好链接: -
How to use Selenium with Python?
https://selenium-python.readthedocs.org/en/latest/getting-started.html
这可能需要时间和研究,但是是的,它会完成,在抓取时处理退出页面。
答案 1 :(得分:0)
您可以探索的一个不错的选择是使用Scrapy。它是一个基于python的框架,用于从网站提取所需的数据。这将帮助您远程登录网站并下载相关数据。
您可以定义和控制要提取的数据以及如何处理它们。而且它的速度要快得多,可以并行地从16页或更多页面中抓取和提取数据。
答案 2 :(得分:0)
嗯,有一种解决方法。您可以使用ExpertRec的自定义搜索引擎并在登录页面后面设置爬网。这是带有说明的博客:https://blog.expertrec.com/crawling-behind-login-authenticated-pages/
尽管这是为了构建自定义搜索引擎,但它们具有免费试用版,因此您可以免费进行设置。这是解决方法部分。抓取完成后,它们将允许您导出所有索引的URL,然后开始吧!那里有您登录后所有页面的列表。