如何在登录后抓取/索引页面?

时间:2015-04-01 03:01:55

标签: indexing login web-crawler

是否有可能(有没有工具)来抓取登录后面的页面(不是内容,只是网址)?我们正在寻找创建一个新网站,并需要索引旧网站上的每个页面,以捕获所有内容,内容类型,将所有网址映射到新网站等...我有一个登录,我是不希望将此添加到谷歌或任何东西。

尖叫青蛙不会这样做。 我不能让当前网站的开发人员参与进来 - 所以在服务器上放一个脚本也不行。还有其他办法吗?

3 个答案:

答案 0 :(得分:0)

是的,您可以将您的抓取工具与“SELENIUM”集成。提供登录凭据,您就可以完成工作了。 很少有可以帮到你的好链接: -

How to use Selenium with Python?

http://www.quora.com/Is-it-possible-to-write-a-Python-script-for-opening-a-browser-and-logging-into-a-website-How-could-you-do-it

https://selenium-python.readthedocs.org/en/latest/getting-started.html

这可能需要时间和研究,但是是的,它会完成,在抓取时处理退出页面。

答案 1 :(得分:0)

您可以探索的一个不错的选择是使用Scrapy。它是一个基于python的框架,用于从网站提取所需的数据。这将帮助您远程登录网站并下载相关数据。

您可以定义和控制要提取的数据以及如何处理它们。而且它的速度要快得多,可以并行地从16页或更多页面中抓取和提取数据。

答案 2 :(得分:0)

嗯,有一种解决方法。您可以使用ExpertRec的自定义搜索引擎并在登录页面后面设置爬网。这是带有说明的博客:https://blog.expertrec.com/crawling-behind-login-authenticated-pages/

尽管这是为了构建自定义搜索引擎,但它们具有免费试用版,因此您可以免费进行设置。这是解决方法部分。抓取完成后,它们将允许您导出所有索引的URL,然后开始吧!那里有您登录后所有页面的列表。