Question

今天，我想到在bot/crawler/spider中编写一个只抓取PHP网站的网络News / etc。首先，我阅读了有关抓取工具的文章，然后遇到了这个问题：

机器人如何识别网址/帖子/文章/文字，因为它与News相关！

我带来的唯一灵魂就是检查一些特定关键字，但不是！我认为这不是一个好的和可行的做法。至少不完美！

所以关于 更好的诽谤 的任何想法都表示赞赏。

Answer 1

你是对的，你不能只依靠这个

这是我的贡献

以上所有因素都是指导您网站类型的因素，您也可能拥有艺术网站等分类数据库等等

并记住每个算法只需要开始，想法会出现在你的脑海中

Answer 2

您可以使用preg_match来匹配关键字，这项技术非常棒且有效：

$text = "News: Flooding is expected today" ;
$news_found = preg_match("/(news|sensation|discovery)/i", $text);

没有理由认为这不是一个好的解决方案。