如何编写可以在网页上浏览和操作的自动化机器人

时间:2011-03-16 09:04:54

标签: java screen-scraping bots

我需要对需要执行以下操作的机器人进行编码:

转到jsp页面 通过以下方式搜索:

  • 1:在搜索框上写点东西
  • 2:点击搜索按钮(提交按钮)
  • 3:单击其中一个生成的按钮/链接(具有不同输出的相同jsp页面)
  • 4:获取新页面的整个html(具有不同输出的相同jsp页面)

第4个可以通过屏幕抓取来完成,我认为我不需要帮助。但我需要一些指导,从1到3做选项。任何链接或只是一些关键字,将帮助我谷歌了解它将不胜感激。我计划用java做这个。

5 个答案:

答案 0 :(得分:8)

您所需要的只是HTMLUnit

这是其描述摘录

HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.

P.S。:曾用它来建立网络抓取项目;)

答案 1 :(得分:6)

也许这不是你想要的,但你可以试试selenium:http://seleniumhq.org/

这是一个Web应用程序测试系统。

答案 2 :(得分:0)

您可以使用python-mechanize

答案 3 :(得分:0)

Prerequistes:

  1. Selenium API。
  2. Mozilla Firefox(安装了firebug扩展程序)
  3. 我们可以实现浏览器的启动,转到特定的网页,搜索关键字并通过以下方式分析结果

    1. 启动网络浏览器(driver.launch()(selenium)
    2. 转到特定网页(driver.get(“您的网页寻呼机”))(selenium)
    3. 标识搜索框(通过使用fire bug(id,xml path ...等)获取标识符
    4. 转到该框并编写搜索关键字(webelement.sendkeys(“您的关键字”)并点击搜索按钮(webelement.click())(selenium)
    5. 使用标识符点击所需结果,然后点击下一个网页加载(selenium)

答案 4 :(得分:0)

我在铬中使用了硒。如果你想使用selenium,你必须从http://www.seleniumhq.org/download/ ---最新版本下载并在neatbeans中实现或者删除jar文件。 (Selenium客户端和WebDriver语言绑定,Selenium独立服务器)此后你必须从谷歌https://sites.google.com/a/chromium.org/chromedriver/ - chrome驱动程序下载 - 最新版本提取文件并保存在你的电脑上。