今天,我想到在bot/crawler/spider
中编写一个只抓取PHP
网站的网络News
/ etc。首先,我阅读了有关抓取工具的文章,然后遇到了这个问题:
机器人如何识别网址/帖子/文章/文字,因为它与News
相关!
我带来的唯一灵魂就是检查一些特定关键字,但不是!我认为这不是一个好的和可行的做法。至少不完美!
所以关于 更好的诽谤 的任何想法都表示赞赏。
答案 0 :(得分:1)
你是对的,你不能只依靠这个
这是我的贡献
以上所有因素都是指导您网站类型的因素,您也可能拥有艺术网站等分类数据库等等
并记住每个算法只需要开始,想法会出现在你的脑海中
答案 1 :(得分:0)
您可以使用preg_match
来匹配关键字,这项技术非常棒且有效:
$text = "News: Flooding is expected today" ;
$news_found = preg_match("/(news|sensation|discovery)/i", $text);
没有理由认为这不是一个好的解决方案。