Python Scrapy:网页抓取asp网站

时间:2014-04-23 00:17:14

标签: python asp.net web scrapy screen-scraping

我已经取消了许多需要表格输入的其他网站,但我很难想出这个...

http://search.appleone.com/ResumeSearch/results.asp

当我搜索某些内容时,网站会返回一个任意的results.asp文件,该文件并非特定于搜索字词。 我要做的是,输入搜索,刮取结果页面。我正在努力寻找一个搜索部分。通常情况下,我会执行类似http://bdomainnameh.com/search/ 输入搜索

的操作

我很感激任何帮助

1 个答案:

答案 0 :(得分:1)

表单有一个隐藏的输入(第285行:

<form name="frmAE" action="process.asp?page=SearchDetailed" method="POST">
<input type=hidden name="hdnAction" value="">

当&#34;下一个&gt;&gt;&#34;单击按钮,它会调用sendForm(2, 0)(第428行),在将其作为POST请求(不是GET)提交之前,将值2分配给隐藏输入(第245行),这就是结果页面为&#34的原因;不是特定于搜索词&#34;即不在网址中显示搜索词。)

您需要(a)将此隐藏值添加到您的请求中,并且(b)提交POST请求,而不是GET。