应用错误收集

时间：2017-09-25 04:56:25

标签： web-scraping

我正试图从这个网站中提取一些数据，每分钟刷新一次。我对java编程有非常基本的了解。我的这位朋友告诉我，这样做的一种方法是进行网络抓取，但我已经尝试过研究它是一个经过尝试的镀铬扩展，但似乎没有一个对我有用。

有关该网站的一些背景信息。这是一个人们去监控COE（新加坡汽车权利证明）的出价的网站。每隔一个星期三，从1430到1600，我必须手动将数据复制并粘贴到excel电子表格中，然后才能每分钟刷新一次。

COE的详细信息

我附上了截图以进一步说明。这是要刮的网站; https://www.onemotoring.com.sg/1m/coe/coeDetail.html

感谢您阅读，我感谢所有帮助。谢谢！

最诚挚的问候，查尔斯

答案 0 :(得分：0)

使用带有node-js的AWS Lambda可以获得非常低的成本。

创建一个Lambda函数并在您想要抓取网站的cron计划中触发它。您可以使用

这样的库

简化抓取。

此外，

要获取页面中的确切节点，请使用serverside jquery或任何可以从已爬网页面中提取元素的渐进式脚本。

获得详细信息后，可以将它们存储在具有极低延迟的nosql DynamoDB下。

你可以用，像https://github.com/clarkie/dynogels这样的ODM使用非常少的代码访问DynamoDB。

希望它有所帮助。