我从哪里开始使用Web机器人?

时间:2009-10-20 23:18:15

标签: python bots

我只是想创建一个可以在Web服务器上运行(最好)的自动脚本,只需“点击”网页的对象即可。我是Python的新手或者用于此的任何语言所以我想我会去这里询问从哪里开始!这可能看起来像我希望脚本欺骗广告或做一些非法的事情,但它只是与另一个网站进行交互。

4 个答案:

答案 0 :(得分:6)

它不一定是Python,我已经在PHP和Perl中看到它,你可以用许多其他语言来完成它。 一般方法是:

1)您为应用提供了一个URL,并向该URL发出HTTP请求。我想我已经看过这个用php / wget完成了。可能还有很多其他方法可以做到。

2)扫描HTTP响应以查找您要“点击”的其他URL(实际上,向他们发送HTTP请求),然后向这些URL发送请求。解析链接通常需要对正则表达式有所了解(如果你不熟悉正则表达式,请刷上它 - 这是重要的东西;)。

答案 1 :(得分:4)

我建议使用.NET包的WebBrowser控件。您可以访问所有DOM元素并与任何网站完全交互。这是一个简短的article

如果您仍然喜欢python,mechanize可能是一种很好的方式。

答案 2 :(得分:2)

我推荐Python mechanize库。它旨在充当模拟浏览器。我用它来从脚本驱动几个web界面。

答案 3 :(得分:1)

我可能从Twill开始 - 您可以使用其脚本语言或Python API。