试图从IRC消息中隔离链接

时间:2012-07-27 18:35:00

标签: python regex beautifulsoup bots irc

我有一个我正在研究的IRC机器人,我希望它具有的一个功能是接收一个人发布的任何链接并使用BeautifulSoup来解析该页面。现在,我有机器人工作,收到人们发布的消息,等等。但是,我如何从IRC消息中提取链接?说别人这么说:

人:查看http://www.site.com,这很酷!

我如何取出链接并将其分配给变量供以后使用,而不会拉出消息的其他部分?

我认为这与正则表达式有关,但我不确定。

2 个答案:

答案 0 :(得分:1)

您确实需要使用正则表达式。

有一篇不错的文章,其中包含用于匹配网址的正则表达式,以及对daring fireball所做内容的描述。

你可以看看Django是如何做到的here

最后,Python的正则表达式documentation也可能有用。

答案 1 :(得分:0)

您正准确地完成此操作。你用问题的最后一句给出了答案。您将使用带有捕获组的正则表达式来获取URL,然后您可以从那里解析/获取用户在irc中说过的页面。

此网站可能对您有用:http://www.regular-expressions.info/