我是Web Scraping和HTTP的新手。到目前为止,我正在尝试通过Web废弃数据网站: https://www.bcassessment.ca/Property/AssessmentSearch
该网站允许按PID搜索每个房屋的9位ID(例如:003-335-666)。我的目标是进行自动搜索,并从网页中获取带有我已获得的PID的信息。
如果使用PID:003-335-666进行搜索,您将获得以下URL:
https://www.bcassessment.ca/Property/Info/QTAwMDAzVlBaWg==
该网址似乎已被编码。
我已经阅读了这篇文章:How to automate multiple requests to a web search form using R
我知道我应该获得搜索框的网址(不确定这是否是正确的表达方式...)。
使用chrome工具(和WebSpy插件),我得到了:
https://www.bcassessment.ca/Property/Search/GetByPid/003335666?PID=003335666&_=1557175243227
似乎它们以JSON格式存储数据,但是我不确定...
现在,我想走得更远,从该页面获取所有信息。
我对数据清理部分很满意,但是我被卡在这里了。
请给我一些提示。我在正确的轨道上吗?