用字符串替换tweet url

时间:2017-05-25 15:48:44

标签: python csv twitter

我正在尝试删除大型csv文件中的所有URL,并将其替换为字符串“URL”(所谓的等价标记)。代码执行我想要的操作,但它会将某些行连接在一行中。

这意味着原始csv有63.000行,输出csv只有55000.这不是我想要的。如何用此令牌替换链接并将所有列分开?

#links are replaced with links

import re
with open('data_feat1.csv',"r", encoding="utf-8") as oldfile2, open('data_feat2.csv', 'w',encoding="utf-8") as newfile2:
    for line in oldfile2:
        line=re.sub(r"http\S+", r"URL", line) #replaces links with "URL"
        newfile2.write(line)
newfile2.close()

2 个答案:

答案 0 :(得分:0)

解决方案是添加“到”网址“:

line=re.sub(r"http\S+", r'URL"', line) #replaces links with "URL"

我不知道为什么会有效,但确实如此!

答案 1 :(得分:0)

它起作用的原因是因为它使用正则表达式来搜索http

re module处理正则表达式。 re.sub会将匹配的正则表达式替换为第二个参数(在您的情况下为URL")。

正则表达式正在做的是搜索http及其之后的所有内容。 “它之后的一切”由\S+字符指定,这些字符表示“直到空白的一切”

看看Pythex。这将是学习Python中正则表达式如何工作的好地方