关于从网页获取信息的创建应用程序的建议

时间:2012-10-17 22:43:26

标签: python browser

首先要说的是我有使用python和一些网络库的经验,比如机械化,漂亮的汤,urllib2。

我们的想法是创建一个可以从网页抓取信息的应用程序,我目前正在webbrowser中查看。而不是存储它。

例如: 我手动去网站,创建一个用户。 比运行我的应用程序,它将从我正在查看的网页上获取一些细节。如用户名,名字,姓氏等。

问题: 我不知道如何使程序在我的webbrowser上运行。我不能简单地登录这个网页,然后使用Beautiful Soup完成剩下的工作,因为它可以很好地保护网页抓取工具和网络漫游器。

需要一些地方开始。所以主要的问题是是否可以获取当前在我的网络浏览器上的信息?如果是,希望听到一些关于如何让我的程序看到浏览器的建议?

如果您不理解我的问题,或者您有一些建议,我可以使用一些图书馆,请随意填写。

1 个答案:

答案 0 :(得分:0)

最简单的方法是将当前页面的HTML内容保存到文件中(使用文件 - >保存页面为或浏览器中的任何内容)然后运行Beautiful Soup / lxml.html / whatever在那个文件上。

你可能也可以Selenium做你想做的事,虽然我从来没有用过它,但我不确定。