说, 我有10,15个处理娱乐新闻的网站列表 我必须抓取网站,然后将数据保存到数据库中,输出按日期/时间排序的网页上的内容, 必须抓取标题,完整内容或10,15行,图像,然后链接到原始源。 该网站必须每5,10分钟更新一次。 在每次更新中,检查新文章并在带有无限滚动的网页中显示标题,文本,图像,原始源链接。 我的经验是用PHP。 任何PHP框架,服务,类开始? 任何帮助将不胜感激。
感谢
答案 0 :(得分:0)
您是否可以通过使用网站上的RSS源来收集相同的信息,而不是抓取页面和屏幕抓取?如果可能的话,你应该避免屏幕抓取。
如果你必须刮,尝试使用DOM解析器,而不是正则表达式 http://simplehtmldom.sourceforge.net/