aggragator网站 - 通过自动化镜像内容更改

时间:2016-09-03 00:40:47

标签: javascript php web-scraping automation

我正在建立一个aggragator网站。以www.nbcnews.com为例,他们的第一个故事"有一些文字的大图片。这会将您链接到实际文章。我想在我的网站上镜像那些图片和文字。当然,我也可以在我的网站上为该图像和文本设置静态链接。然而,当他们改变他们的第一个故事"然后我的仍然是旧故事的静态链接。有没有办法自动化这个过程?每次他们的#1;第一"故事更新,我希望我的头号故事反映出这种变化。

是否存在不使用网络刮刀的php或java解决方案?

以下是我正在谈论的设置了静态链接的空白页面的精简示例。

BTW没有RSS提要,也没有API。由于合理使用法律和点击时的事实,这也是合法的,它链接回作者网站。

<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div>
<body>
</body>
</html>

1 个答案:

答案 0 :(得分:-1)

如果你想一想这不是很难。首先,我已经在python中完成了它,我只需要两个库来使其工作。请求和lxml python库。请求用于转到实际的网页,lxml用于从网站上删除部分html代码段,您需要编写一个函数将lxml库的返回值转换为可用于您的数据结构网站。