应用错误收集

推进php爬虫，带后端的网站

时间：2014-05-05 07:45:31

标签： php web web-crawler aggregate aggregation

我的想法是，创建一个网站，汇总来自其他来源的内容并将其显示在页面中，

说，我有10,15个处理娱乐新闻的网站列表我必须抓取网站，然后将数据保存到数据库中，输出按日期/时间排序的网页上的内容，必须抓取标题，完整内容或10,15行，图像，然后链接到原始源。该网站必须每5,10分钟更新一次。在每次更新中，检查新文章并在带有无限滚动的网页中显示标题，文本，图像，原始源链接。我的经验是用PHP。任何PHP框架，服务，类开始？任何帮助将不胜感激。

感谢

1 个答案:

答案 0 :(得分：0)

您是否可以通过使用网站上的RSS源来收集相同的信息，而不是抓取页面和屏幕抓取？如果可能的话，你应该避免屏幕抓取。

如果你必须刮，尝试使用DOM解析器，而不是正则表达式 http://simplehtmldom.sourceforge.net/