我正试图从这个网站中提取一些数据,每分钟刷新一次。我对java编程有非常基本的了解。我的这位朋友告诉我,这样做的一种方法是进行网络抓取,但我已经尝试过研究它是一个经过尝试的镀铬扩展,但似乎没有一个对我有用。
有关该网站的一些背景信息。这是一个人们去监控COE(新加坡汽车权利证明)的出价的网站。每隔一个星期三,从1430到1600,我必须手动将数据复制并粘贴到excel电子表格中,然后才能每分钟刷新一次。
COE的详细信息
我附上了截图以进一步说明。 这是要刮的网站; https://www.onemotoring.com.sg/1m/coe/coeDetail.html
感谢您阅读,我感谢所有帮助。谢谢!
最诚挚的问候, 查尔斯
答案 0 :(得分:0)
使用带有node-js的AWS Lambda可以获得非常低的成本。
创建一个Lambda函数并在您想要抓取网站的cron计划中触发它。您可以使用
这样的库https://github.com/bda-research/node-crawler
简化抓取。
此外,
要获取页面中的确切节点,请使用serverside jquery或任何可以从已爬网页面中提取元素的渐进式脚本。
获得详细信息后,可以将它们存储在具有极低延迟的nosql DynamoDB下。
你可以用, 像https://github.com/clarkie/dynogels这样的ODM使用非常少的代码访问DynamoDB。
希望它有所帮助。