我有一个问题我正在尝试使用webscraper.io扩展来获取chrome。它不起作用,因为URL不会更改,但如果刷新浏览器,则会重置回搜索输入页面。
我之前尝试过nodeJs,但网站已经过重新设计,网址永远不会改变,因此我无法在nodeJs中设置抓取的起点。我查看了chrome控制台的网络选项卡,找到了正确选择的表单数据(年份,街道名称和类似名称),但我不知道完整的地址。
这是一个地址和邮箱试试
网址 http://hcad.org/property-search/real-property/real-property-search-by-address/
年份和地址 2016 Post Oak
有人可以告诉我如何手动将地址放在一起吗?
答案 0 :(得分:0)
首先让我回答一下为什么诈骗者没有工作,网站的想法是他们将数据发布到/SelectRecord.asp
,然后返回包含他们附加到dom的数据的js,你会看到结果。不幸的是,这种行为特定于此网站。
使用selinium
发布表单数据并从DOM中删除结果。这是一个较长的过程,但在复杂的Web应用程序中可靠。
考虑到现有网站,我注意到网站上的帖子参数是
TaxYear=2016
stnum
stname=Post+Oak
searchtype=str
以上我从上面提到的查询中得到了。结果就像是
....
<td align="left" valign="center" nowrap>111 POST OAK # 286</td>
<td valign="center">77024</td>
<td valign="center">0</td>
<td valign="center">$84,840</td>
<td valign="center">$84,840</td>
....
我刚刚粘贴了完整代码的一部分。
现在,您所要做的就是使用您选择的参数发出curl
请求,并删除更简单的XML。