Question

我有一个问题我正在尝试使用webscraper.io扩展来获取chrome。它不起作用，因为URL不会更改，但如果刷新浏览器，则会重置回搜索输入页面。

我之前尝试过nodeJs，但网站已经过重新设计，网址永远不会改变，因此我无法在nodeJs中设置抓取的起点。我查看了chrome控制台的网络选项卡，找到了正确选择的表单数据（年份，街道名称和类似名称），但我不知道完整的地址。

这是一个地址和邮箱试试

网址 http://hcad.org/property-search/real-property/real-property-search-by-address/

年份和地址 2016 Post Oak

有人可以告诉我如何手动将地址放在一起吗？

Answer 1

首先让我回答一下为什么诈骗者没有工作，网站的想法是他们将数据发布到/SelectRecord.asp，然后返回包含他们附加到dom的数据的js，你会看到结果。不幸的是，这种行为特定于此网站。

如何刮取此类网站

方法1

使用selinium发布表单数据并从DOM中删除结果。这是一个较长的过程，但在复杂的Web应用程序中可靠。

方法2

考虑到现有网站，我注意到网站上的帖子参数是

TaxYear=2016
stnum
stname=Post+Oak
searchtype=str

以上我从上面提到的查询中得到了。结果就像是

....
<td align="left" valign="center" nowrap>111 POST OAK # 286</td>
<td valign="center">77024</td>
<td valign="center">0</td>
<td valign="center">$84,840</td>
<td valign="center">$84,840</td>
....

我刚刚粘贴了完整代码的一部分。

现在，您所要做的就是使用您选择的参数发出curl请求，并删除更简单的XML。

在具有不更改的URL的网站上使用Scrape自动化

1 个答案:

如何刮取此类网站

方法1

方法2