Web数据抓取查询

时间:2012-08-21 08:05:24

标签: screen-scraping web-scraping

我正在尝试从http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=获取其中列出的每个州的所有数据。基本上是姓名,地址,电子邮件等。

我的问题是:

  1. 我没有URL参数可以从下拉列表中迭代状态。
  2. 我愿意手动迭代状态,但是我有什么方法可以选择一个div并复制来自所有类似DIV的内容/文本。我的意思是你可以看到里面有一个标签,里面有完整的内容。如何从标签内所有出现的文本中提取文本?

    我不是特别关注任何脚本语言,Php,perl python甚至是简单的firefox插件......我只需要结果。请问任何指导?


    我尝试使用网络收获

    <?xml version="1.0" encoding="UTF-8"?>
    
    <config charset="ISO-8859-1">
         <!-- sends post request with state name -->
         <http>
            <http method="post" url="http://www.nationwide.com/locator/home/index.x?lineOfBusiness=insurance_agent&locatorhome=fromhome&language=">
            <http-param name="state">AL</http-param>
            <http-param name="searchType">proximity_search</http-param>
            <http-param name="requestSource">home_NI</http-param>
            <http-param name="businessType">NI</http-param>
            <http-param name="language">en</http-param>
            <http-param name="UserAddressCookieAction">createUserAddressCookie</http-param>
        </http>
          <!-- collects content inside address tag -->
    
    
    </config>
    

2 个答案:

答案 0 :(得分:0)

我无法加载您的页面,但我仍然可以帮助您。你可以使用一个很棒的软件:

http://jsoup.org/

用于自动抓取此数据。但是,您必须编写一个小型Java程序。要获得css选择器(这就是你可以根据你的搜索结果),你可以在firefox中使用Firebug插件。

如果您不想编写Java代码,可以使用另一个神奇的工具:

http://web-harvest.sourceforge.net/

在他们的页面上,你可以看到很多例子,甚至使用post方法。

如果您需要更多帮助,请与我们联系!

答案 1 :(得分:0)

您可以使用irobotsoft scraper。在这里查看演示:

http://irobotsoft.com/help/

要遍历下拉列表,您可以关注此主题:

http://irobotsoft.org/bb/YaBB.pl?num=1248753202