如何在公共网站

时间:2017-05-04 07:58:52

标签: php angularjs node.js

如果公司公共网站在网站上添加文档,我想收到通知。我需要为大约400个公共站点执行此操作。由于每个站点都有不同的文档目录,我将在本地服务器的Mysql中为所有站点目录信息创建数据库。

  

Example1

     

http://www.hubpower.com

     

文档目录位于以下路径

     

http://www.hubpower.com/wp-content/themes/hubco/pdf/

     

上述文件夹中还有两个文档链接:

     

http://www.hubpower.com/wp-content/themes/hubco/pdf/3Q2K17%20Result.pdf   http://www.hubpower.com/wp-content/themes/hubco/pdf/1910-financial-results-announcements-(dec-2015).pdf

     

例2

     

http://www.pk.abbott/investor/investor-information.html

     

在以下路径中放置了两个文档目录

     

http://dam.abbott.com/en-pk/documents/pdf/investors/   http://dam.abbott.com/en-pk/investor-relations/

     

以下是文档链接:

     

http://dam.abbott.com/en-pk/documents/pdf/investors/Q12017.pdf   http://dam.abbott.com/en-pk/investor-relations/2016Q3.pdf   http://dam.abbott.com/en-pk/investor-relations/Abbott_A_R_2016.pdf   http://dam.abbott.com/en-pk/investor-relations/AR2015.pdf

如果网站在上述路径中添加了更多pdf文档,我希望收到有关电子邮件的通知,并进一步将新文档从网站目录下载到我的本地服务器。

请建议一些解决方案来实现这一目标。我更喜欢和 Restful,PHP,Angularjs,Nodejs,python,Javacript

谢谢&问候

2 个答案:

答案 0 :(得分:0)

您可以使用Website Content Changes tool之类的Chrome Plugin Visualping,可以通过电子邮件发送给您。

Form this Answer 一般情况下,如果没有其他可能的消息,您需要轮询网站。你不能强迫他们提供这样的服务。

对于维基百科,有一些实时更新IRC流,每个项目一个。 Wikistream就是这样一个读取feed的应用程序,你可以在github上查看它的开源node.js代码。

答案 1 :(得分:0)

您可以使用nodejs和request模块获取您提到的每400个页面的html,然后使用cheerio解析它,然后使用mysql模块将所有将数据存入您的数据库,您还可以检查您所抓取的数据是否已经存在于您的数据库中,如果是,您什么也不做,您可以像每天一样这样做