所以我有一个非常大的数据库,问题是要找出格式错误的电子邮件地址。请帮帮我,谢谢!
1:有多少记录有错误的电子邮件地址(包含@但但格式不正确的行)?电子邮件地址具有用户ID,域名可以包含字母,数字,句点和短划线。电子邮件地址应具有顶级域名(something.top-leveldomain)。顶级域的格式为:com,org,edu等,
我知道如何找到电子邮件地址:grep -E“\ b [A-Za-z0-9 ._%+ - ] + @ [A-Za-z0-9 .-] +。[A- Za-z] {2,6} \ b“HW1_Data.txt; 但如果我使用grep -E -v“\ b [A-Za-z0-9 ._%+ - ] + @ [A-Za-z0-9 .-] +。[A-Za-z] {2 ,6} \ b“HW1_Data.txt,我会收到除电子邮件之外的一切......所以我只是不知道该怎么做
答案 0 :(得分:0)
请运行grep @ HW1_Data.txt以获取可能是电子邮件地址的所有行。然后排除无效。答案是
grep @ HW1_Data.txt | grep -E -v" \ b [A-Za-z0-9 ._%+ - ] + @ [A-Za-z0-9 .-] +。[A-Za-z] {2, 6} \ b"