写一个Web机器人

时间:2013-06-30 13:18:15

标签: php web-crawler

今天,我想到在bot/crawler/spider中编写一个只抓取PHP网站的网络News / etc。首先,我阅读了有关抓取工具的文章,然后遇到了这个问题:

机器人如何识别网址/帖子/文章/文字,因为它与News相关!

我带来的唯一灵魂就是检查一些特定关键字,但不是!我认为这不是一个好的和可行的做法。至少不完美!

所以关于 更好的诽谤 的任何想法都表示赞赏。

2 个答案:

答案 0 :(得分:1)

你是对的,你不能只依靠这个

这是我的贡献

  • 将网址与某些关键字匹配
  • 在页面描述中搜索
  • 在页面关键字中搜索
  • 查看此页面的其他链接(您的抓取工具之前访问过的网页)

以上所有因素都是指导您网站类型的因素,您也可能拥有艺术网站等分类数据库等等

并记住每个算法只需要开始,想法会出现在你的脑海中

答案 1 :(得分:0)

您可以使用preg_match来匹配关键字,这项技术非常棒且有效:

$text = "News: Flooding is expected today" ;
$news_found = preg_match("/(news|sensation|discovery)/i", $text);

没有理由认为这不是一个好的解决方案。