indexing - 如何在登录后抓取/索引页面？

时间：2015-04-01 03:01:55

标签： indexing login web-crawler

是否有可能（有没有工具）来抓取登录后面的页面（不是内容，只是网址）？我们正在寻找创建一个新网站，并需要索引旧网站上的每个页面，以捕获所有内容，内容类型，将所有网址映射到新网站等...我有一个登录，我是不希望将此添加到谷歌或任何东西。

尖叫青蛙不会这样做。我不能让当前网站的开发人员参与进来 - 所以在服务器上放一个脚本也不行。还有其他办法吗？

答案 0 :(得分：0)

是的，您可以将您的抓取工具与“SELENIUM”集成。提供登录凭据，您就可以完成工作了。很少有可以帮到你的好链接： -

这可能需要时间和研究，但是是的，它会完成，在抓取时处理退出页面。

答案 1 :(得分：0)

您可以探索的一个不错的选择是使用Scrapy。它是一个基于python的框架，用于从网站提取所需的数据。这将帮助您远程登录网站并下载相关数据。

您可以定义和控制要提取的数据以及如何处理它们。而且它的速度要快得多，可以并行地从16页或更多页面中抓取和提取数据。

答案 2 :(得分：0)

嗯，有一种解决方法。您可以使用ExpertRec的自定义搜索引擎并在登录页面后面设置爬网。这是带有说明的博客：https://blog.expertrec.com/crawling-behind-login-authenticated-pages/

尽管这是为了构建自定义搜索引擎，但它们具有免费试用版，因此您可以免费进行设置。这是解决方法部分。抓取完成后，它们将允许您导出所有索引的URL，然后开始吧！那里有您登录后所有页面的列表。