您如何确保40,000个联系人列表是最新的?

时间:2017-05-04 11:26:06

标签: python parsing data-cleaning data-cleansing

我仍然是编程(Python)的新手,并且更新了大约40,000个联系人列表的任务有点不知所措。显然,我不想手动执行此操作,并试图找出如何最好地自动执行任务。任何建议或帮助指向正确的方向将不胜感激。以下是问题:

  1. 我需要确保信息仍然是最新的(即该人仍在同一家公司工作和/或未更改其职称)。最好的方法是什么?解析LinkedIn?试着找到他们的Facebook个人资料,并希望他们披露他们的工作地点?
  2. 对于某些联系人,我只有一个电子邮件和公司名称(可能是职称),但不是该人的姓名。有没有办法用我的信息获取名字和姓氏,你会怎么做?

1 个答案:

答案 0 :(得分:0)

这似乎是一项不可能完成的任务,因为

1:那里的信息可能不正确

2:通常有多个人具有相同的名称,所以你如何识别它们

3:即使有人停止在公司工作,他们也会在网上找到这个事实的痕迹

4:你不能从他们的电子邮件中找到某个人的姓名,除非他们确实是他们名字的子字符串,即first.lastname@company.com。

如果你想从某个地方开始,我会说使用电子邮件名称解析。如果你想分支到硬核webscraping你可以尝试,但这不会是一个小任务。您需要为每个平台构建不同的接口,并且您需要某种逻辑来查找前者与当前状态,而这些逻辑可能无法以良好的格式存储。如果你想在那个地方开始检查:

https://pypi.python.org/pypi/python-linkedin/4.0

并且可能会查找您所在国家/地区的大喊,118等可能具有REST api或JSON界面的版本