python从没有html标签的文本文件中提取URL

时间:2017-08-28 07:10:03

标签: python regex parsing url

我发现这里的大多数帖子都在接近标签,以便在文本文件中找到网址。但并非所有文本文件都必须在它们旁边添加html标签。我正在寻找一种适用于这两种情况的解决方案。以下正则表达式是:

'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'

正则表达式使用下面的代码从文本文件中获取URL但问题是它还需要不必要的字符,例如'>'

这是我的代码:

import re
def extractURLs(fileContent):
    urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', fileContent.lower())
    print urls
    return urls

myFile = open("emailBody.txt")
fileContent = myFile.read()
URLs = URLs + extractURLs(fileContent)

输出示例如下:

http://saiconference.com/ficc2018/submit
http://52.21.30.170/sendy/unsubscribe/qhiz2s763l892rkps763chacs52ieqkagf8rbueme9n763jv6da/hs1ph7xt5nvdimnwwfioya/qg0qteh7cllbw8j6amo892ca>
https://www.youtube.com/watch?v=gvwyoqnztpy>
http://saiconference.com/ficc
http://saiconference.com/ficc>
http://saiconference.com/ficc2018/submit>

正如您所看到的,有些字符(例如'>')会导致问题。我做错了什么?

1 个答案:

答案 0 :(得分:1)

快速解决方案,假设'>'是最后出现的唯一字符:url.rstrip('>')

删除单个字符串的最后一次出现(多个)字符。因此,您必须遍历列表并删除该字符。

编辑:刚拿到一台带有python的电脑,所以在测试后给出一个正则表达式的答案。

import re
def extractURLs(fileContent):
    urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', fileContent.lower())
    cleanUrls = []
    for url in urls:
        lastChar = url[-1] # get the last character
        # if the last character is not (^ - not) an alphabet, or a number,
        # or a '/' (some websites may have that. you can add your own ones), then enter IF condition
        if (bool(re.match(r'[^a-zA-Z0-9/]', lastChar))): 
            cleanUrls.append(url[:-1]) # stripping last character, no matter what
        else:
            cleanUrls.append(url) # else, simply append to new list
    print(cleanUrls)
    return cleanUrls

URLs = extractURLs("http://saiconference.com/ficc2018/submit>")

但是,如果只有一个字符,则使用.rstrip()更简单。