我们已经在php中开发了一个irc bot,它(在许多其他功能中)会响应用户发送到频道的任何网址的页面标题。我遇到的问题是,当有人放置图像或文件的URL时,机器人会尝试检索该文件或图像。
我试图确定解决此问题的最佳方法。我应该过滤所有可能的文件类型的url输入和正则表达式吗?至少可以说,这似乎令人生畏和详尽无遗。如果有人抓住它,他们可以简单地将一个巨大的文件放在一个带有无意义扩展名的地方,然后在频道中说出该网址,并将机器人计时。
我觉得我错过了卷曲选项,这可能会让它完全忽略文件检索,这些文件检索本质上并不简单。有什么建议或意见吗?
答案 0 :(得分:0)
一个想法可能是您首先执行HEAD请求,如果内容类型是text / html,则下载它,否则您不会。或者您可以只读取前1000个字符(或小的字符)并检查标题是否存在。如果不是你认为它不是html。