推进php爬虫,带后端的网站

时间:2014-05-05 07:45:31

标签: php web web-crawler aggregate aggregation

我的想法是, 创建一个网站,汇总来自其他来源的内容并将其显示在页面中,

说, 我有10,15个处理娱乐新闻的网站列表 我必须抓取网站,然后将数据保存到数据库中,输出按日期/时间排序的网页上的内容, 必须抓取标题,完整内容或10,15行,图像,然后链接到原始源。 该网站必须每5,10分钟更新一次。 在每次更新中,检查新文章并在带有无限滚动的网页中显示标题,文本,图像,原始源链接。 我的经验是用PHP。 任何PHP框架,服务,类开始? 任何帮助将不胜感激。

感谢

1 个答案:

答案 0 :(得分:0)

您是否可以通过使用网站上的RSS源来收集相同的信息,而不是抓取页面和屏幕抓取?如果可能的话,你应该避免屏幕抓取。

如果你必须刮,尝试使用DOM解析器,而不是正则表达式 http://simplehtmldom.sourceforge.net/