我有一个包含培训数据的Excel文件。在A列中,它包含来自客户的非结构化电子邮件(1个电子邮件/单元),而在其他列中,它包含其他内容。我必须使A列中每封电子邮件的电子邮件地址,邮政地址,发件人/收件人姓名和电话号码匿名。
我当时正在考虑使用python熊猫将细胞转换为数据帧。 有想法吗?
谢谢
答案 0 :(得分:1)
一旦您已经转换了excel文件中的数据(我个人没有很多经验,但是我认为曾经使用过https://pypi.org/project/xlrd/),则文本处理能力过滤器可以帮助您匿名化内容:{{ 1}} icw textacy.preprocess.preprocess_text
等(https://chartbeat-labs.github.io/textacy/api_reference.html)
答案 1 :(得分:1)
根据需要将数据读入python,然后使用正则表达式替换字符串。
例如,您得到一个仅包含邮件地址r
的列表:
r = "abc@gf.com"
现在,您可以import re
并使用re.sub()
并带有合适的样式。对于邮件,我采取了One from regexr.com community,整个过程看起来像这样:
import re
r = "abc@gf.com"
p = re.sub("[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", "***MAIL***", r)
print(p)
结果:
>>> print(p)
***MAIL***