Web抓取每分钟刷新的数据

时间:2017-09-25 04:56:25

标签: web-scraping

我正试图从这个网站中提取一些数据,每分钟刷新一次。我对java编程有非常基本的了解。我的这位朋友告诉我,这样做的一种方法是进行网络抓取,但我已经尝试过研究它是一个经过尝试的镀铬扩展,但似乎没有一个对我有用。

有关该网站的一些背景信息。这是一个人们去监控COE(新加坡汽车权利证明)的出价的网站。每隔一个星期三,从1430到1600,我必须手动将数据复制并粘贴到excel电子表格中,然后才能每分钟刷新一次。

COE的详细信息

enter image description here

我附上了截图以进一步说明。 这是要刮的网站; https://www.onemotoring.com.sg/1m/coe/coeDetail.html

感谢您阅读,我感谢所有帮助。谢谢!

最诚挚的问候, 查尔斯

1 个答案:

答案 0 :(得分:0)

使用带有node-js的AWS Lambda可以获得非常低的成本。

创建一个Lambda函数并在您想要抓取网站的cron计划中触发它。您可以使用

这样的库

https://github.com/bda-research/node-crawler

简化抓取。

此外,

要获取页面中的确切节点,请使用serverside jquery或任何可以从已爬网页面中提取元素的渐进式脚本。

获得详细信息后,可以将它们存储在具有极低延迟的nosql DynamoDB下。

你可以用, 像https://github.com/clarkie/dynogels这样的ODM使用非常少的代码访问DynamoDB。

希望它有所帮助。