在具有不更改的URL的网站上使用Scrape自动化

时间:2017-02-11 08:22:53

标签: javascript asp.net node.js

我有一个问题我正在尝试使用webscraper.io扩展来获取chrome。它不起作用,因为URL不会更改,但如果刷新浏览器,则会重置回搜索输入页面。

我之前尝试过nodeJs,但网站已经过重新设计,网址永远不会改变,因此我无法在nodeJs中设置抓取的起点。我查看了chrome控制台的网络选项卡,找到了正确选择的表单数据(年份,街道名称和类似名称),但我不知道完整的地址。

这是一个地址和邮箱试试

网址 http://hcad.org/property-search/real-property/real-property-search-by-address/

年份和地址 2016 Post Oak

有人可以告诉我如何手动将地址放在一起吗?

1 个答案:

答案 0 :(得分:0)

首先让我回答一下为什么诈骗者没有工作,网站的想法是他们将数据发布到/SelectRecord.asp,然后返回包含他们附加到dom的数据的js,你会看到结果。不幸的是,这种行为特定于此网站。

如何刮取此类网站

方法1

使用selinium发布表单数据并从DOM中删除结果。这是一个较长的过程,但在复杂的Web应用程序中可靠。

方法2

考虑到现有网站,我注意到网站上的帖子参数是

TaxYear=2016
stnum
stname=Post+Oak
searchtype=str

以上我从上面提到的查询中得到了。结果就像是

....
<td align="left" valign="center" nowrap>111 POST OAK # 286</td>
<td valign="center">77024</td>
<td valign="center">0</td>
<td valign="center">$84,840</td>
<td valign="center">$84,840</td>
....

我刚刚粘贴了完整代码的一部分。

现在,您所要做的就是使用您选择的参数发出curl请求,并删除更简单的XML。