我正在编写一个应用程序,需要从第三方网站获取数据。不幸的是,只需要通过CURLing网页,然后解析它(我使用XPATH)寻找< H1> DOM元素。
由于我将在一天内多次运行此脚本,并且我可能不得不一次又一次地获取相同的酒店名称,我认为缓存机制会很好:检查是否酒店已经过去解析过,然后决定是否要发网页请求。
但是我有两个问题:这个实现最好是在DB中进行(因为会有ID-Hotel名称匹配)或在文件中?第二个是这个"优化"值得全部麻烦。我会获得一些显着的加速吗?
答案 0 :(得分:2)
使用DB,因为默认情况下它会为您提供更多的数据操作灵活性和功能(过滤,排序等)。