我有一个我正在研究的IRC机器人,我希望它具有的一个功能是接收一个人发布的任何链接并使用BeautifulSoup来解析该页面。现在,我有机器人工作,收到人们发布的消息,等等。但是,我如何从IRC消息中提取链接?说别人这么说:
人:查看http://www.site.com,这很酷!
我如何取出链接并将其分配给变量供以后使用,而不会拉出消息的其他部分?
我认为这与正则表达式有关,但我不确定。
答案 0 :(得分:1)
您确实需要使用正则表达式。
有一篇不错的文章,其中包含用于匹配网址的正则表达式,以及对daring fireball所做内容的描述。
你可以看看Django是如何做到的here。
最后,Python的正则表达式documentation也可能有用。
答案 1 :(得分:0)
您正准确地完成此操作。你用问题的最后一句给出了答案。您将使用带有捕获组的正则表达式来获取URL,然后您可以从那里解析/获取用户在irc中说过的页面。
此网站可能对您有用:http://www.regular-expressions.info/