应用错误收集

从其他网站获取信息？

时间：2012-11-22 14:32:18

标签： php html-parsing fetch moodle

我想从这个网站（中心板）获取所有最新消息： http://web.hanu.vn/en/ 我最新的方法是在PHP中使用Simple HTML DOM Parser解析html，但我认为它太慢了。我的想法是从这个网站的近20个类似网站获取新闻。他们都是由Moodle开发，所以他们有相同的HTML格式。但是，使用1个站点需要几秒钟才能获取=＆gt; 20个站点需要大量时间。有没有更好的方法而不是解析HTML？或者我应该将结果存储在数据库中并在一段时间后更新它而不是为每个用户请求获取它？我在做所谓的“爬行”，不是吗？

3 个答案:

答案 0 :(得分：3)

或者我应该将结果存储在数据库中并在一段时间后更新它而不是为每个用户请求获取它？

是的，你应该。并坚持解析HTML，do not use regular expressions for parsing HTML。

你要做的是网页抓取，还没有抓取（除非你真的抓取页面）。

答案 1 :(得分：0)

我建议您使用curl下载页面，并在不使用正则表达式的情况下执行正确的处理，尝试使用substr，strpos，strip标签等...并将最后的通知存储在数据库中，并使用它来更新它的cronjob。

答案 2 :(得分：-1)

我建议你使用Reqular Expressions。（Wikipedia）此外，使用strpos和substr函数剥离HTML数据的某些部分是非常好的主意，这些函数比正则表达式更快。 here是很好的正则表达式测试器。