R-通过自动搜索进行网页搜刮

时间:2019-05-06 20:47:35

标签: r json http web-scraping

我是Web Scraping和HTTP的新手。到目前为止,我正在尝试通过Web废弃数据网站: https://www.bcassessment.ca/Property/AssessmentSearch

该网站允许按PID搜索每个房屋的9位ID(例如:003-335-666)。我的目标是进行自动搜索,并从网页中获取带有我已获得的PID的信息。

如果使用PID:003-335-666进行搜索,您将获得以下URL: https://www.bcassessment.ca/Property/Info/QTAwMDAzVlBaWg==
该网址似乎已被编码。

我已经阅读了这篇文章:How to automate multiple requests to a web search form using R

我知道我应该获得搜索框的网址(不确定这是否是正确的表达方式...)。
使用chrome工具(和WebSpy插件),我得到了: https://www.bcassessment.ca/Property/Search/GetByPid/003335666?PID=003335666&_=1557175243227

似乎它们以JSON格式存储数据,但是我不确定...
现在,我想走得更远,从该页面获取所有信息。

我对数据清理部分很满意,但是我被卡在这里了。

请给我一些提示。我在正确的轨道上吗?

0 个答案:

没有答案