例如,我想从某个网站获取一些产品详细信息,例如http://www.peapod.com
我可以从搜索中获取所有简明的产品信息。例如,当搜索“奶酪”时,我可以获得所有这些产品的重量和价格。但是,如果我想获得更详细的数据,我需要点击每个产品的链接,我可以从网络浏览器中执行此操作,但是当我尝试从html文件中执行此操作时,我获得的唯一链接信息是表格“javascript:ntn(product_id,some_int)。”
真正的http链接格式为http://www.peapod.com/itemDetailView.jhtml?productId=106871&NUM=1352479733231,其中第一个数字是产品ID,第二个数字(我猜)是会话ID。我可以通过JavaScript调用从父页面的链接地址中找到产品ID,但是如何获取会话ID?
当我尝试下载搜索页面时,我收到了一堆js文件,我猜这些js文件可能会帮助我获取会话ID。但我不知道如何调用那些js文件。
请帮帮我。非常感谢你!
答案 0 :(得分:0)
您应该使用像Fiddler这样的工具来查看单击这些链接时会发生什么,而不是尝试编写调用JavaScript函数的内容。最有可能的是,这些函数执行的操作是发出HTTP请求以检索要显示的数据。您的应用程序可以更轻松地生成相同的HTTP请求并提取数据,而不是使用屏幕抓取技术。