我有一个非常大的docx文件(700页),它具有日志格式
[15/09/2014, 15:30:21] Stijn: Nice
我希望删除时间,让它看起来像这样
[15/09/2014] Stijn: Nice
我很确定这可以在python中完成,但还没有找到确切的方法。 我应该使用这样的东西吗?
line.replace(char,'')
它是一个whatsapp日志文件,看起来有点像这样(某些文本使用2行)
[15/09/2014, 15:53:39] Dylan: Beste selfie ever
[15/09/2014, 15:53:52] Sipke: Ja
[15/09/2014, 15:54:05] You changed this group's icon
将不胜感激:)
答案 0 :(得分:0)
如果您知道如何使用正则表达式,则可以轻松完成。您要:
1)逐行读取文件
2)用空白文本替换时间戳。
这是我为您提供的示例python代码:
#!/usr/bin/python
import re
text = "[15/09/2014, 15:30:21] Stijn: Nice"
# Capture time stamp and substitute it with blank
new = re.sub(r'(, [0-9]{2}:[0-9]{2}:[0-9]{2})', "", text)
print new
这将产生:
[15/09/2014] Stijn: Nice
如果您想弄弄/理解我在这里使用的正则表达式的用法,请点击此链接-https://regexr.com/406sc