Question

我正在建立一个aggragator网站。以www.nbcnews.com为例，他们的第一个故事＆＃34;有一些文字的大图片。这会将您链接到实际文章。我想在我的网站上镜像那些图片和文字。当然，我也可以在我的网站上为该图像和文本设置静态链接。然而，当他们改变他们的第一个故事＆＃34;然后我的仍然是旧故事的静态链接。有没有办法自动化这个过程？每次他们的＃1;第一＆＃34;故事更新，我希望我的头号故事反映出这种变化。

是否存在不使用网络刮刀的php或java解决方案？

以下是我正在谈论的设置了静态链接的空白页面的精简示例。

BTW没有RSS提要，也没有API。由于合理使用法律和点击时的事实，这也是合法的，它链接回作者网站。

<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div>
<body>
</body>
</html>

Answer 1

如果你想一想这不是很难。首先，我已经在python中完成了它，我只需要两个库来使其工作。请求和lxml python库。请求用于转到实际的网页，lxml用于从网站上删除部分html代码段，您需要编写一个函数将lxml库的返回值转换为可用于您的数据结构网站。

aggragator网站 - 通过自动化镜像内容更改

1 个答案: