从路径中提取html的正则表达式

时间:2016-07-20 17:21:43

标签: python regex

我是Regex的新手。 我需要从目录路径中提取2件事。 ../ path_to_html / myhtmlpage.html?additional_args_or_url

我怎样才能获得html的名称? eg.myhtmlpage

我怎样才能得到整个网址? eg.myhtmlpage.html?VIDEO_URL = www.google.com /视频

非常感谢!

1 个答案:

答案 0 :(得分:0)

你走了:

import re
url = "/path_to_html/myhtmlpage.html?video_url=www.google.com/video"
# Name
print re.findall(r'/(\w+)\.html', url)[0]
# Entire url
print re.findall(r'/(\w+\.html.*)', url)[0]

打印:

myhtmlpage
myhtmlpage.html?video_url=www.google.com/video