从表单生成可能的URL

时间:2009-03-10 13:48:39

标签: html forms screen-scraping

我正在尝试获取此页面上表单生成的所有网址(然后获取数据) - http://www.vodafone.in/_layouts/servicecallertunes.aspx但收效甚微。

我在Firefox 3.0.5,Ubuntu上安装了HTTP Headers(0.14)插件。但结果URL非常奇怪且很长。 例如:

POST /_layouts/servicecallertunes.aspx __EVENTTARGET=CTTunes1%24ddlTunesSubCategories&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=M0ZAMFvA%2Baq58jd57T84z0fdR%2B1tju00M3YD5nagIHQB48ihJiAoFxS%2B%2Ff8CvaAigdH2a4

(继续超过5000个字符)

从上述表单中获取数据的可编程选项有哪些?我目前唯一的想法是生成所有可能的URL,然后获取数据。

提前致谢。 巴特J

2 个答案:

答案 0 :(得分:2)

这是一个ASP.NET页面,这就是你在那里看到__VIEWSTATE的原因。

顾名思义,视图状态编码有关视图状态的信息,以尝试使无状态HTTP连接对创建表单的程序员“感觉”有状态。

看起来实际上有一个firefox plugin可以让你解码视图状态并查看其中的信息。您或许可以使用它来确定真正提交的内容并制作自己的视图状态以获得所需的行为。

或者你可以生成所有可能的URL - 这可能更容易:)

答案 1 :(得分:1)

您可以在250个连续页面中获取相同的数据:

http://www.vodafone.in/existingusers/services/pages/callertunes_searching.aspx?cttrack=1