美好的一天,
我已经建立了一个现有网站。我想知道,当其他网站更新时,我的网站如何自动更新?这实际上意味着我的现有网站将在更新时从其他网站获取费用,描述,图像等信息。
我正在考虑网络服务,但另一个网站却没有。
请指教!
谢谢!
答案 0 :(得分:2)
如果其他网站没有API,您唯一的选择是页面抓取,即下载HTML并解析它以提取您想要的信息。
如果他们的页面结构不经常更改,这通常是可靠的。
您可能希望使用PHP的DomDocument来提取信息。
通常,人们不喜欢它,因为设计糟糕的工具会对系统资源造成负担,因为生成整个HTML页面比生成API响应更加耗费资源。
页面抓取相当普遍,但有些人不鼓励它。一个网站的TOU可能不允许它,可能具有法律含义。或者,您的目标网站可能没有任何问题。当然,有大型企业建立在页面抓取的基础上(参见“谷歌”)。