如何在Twitter API中区分个人与企业帐户?

时间:2015-04-21 01:21:32

标签: python api twitter

我目前正在尝试将雅虎财经公司与其Twitter帐户进行匹配。

到目前为止,我正在编写一个脚本,将公司名称与Twitter句柄进行部分字符串匹配,并将公司网页与其Twitter帐户上的URL进行匹配。这是不完美的,有时会与错误的帐户匹配

我想知道Twitter API中是否有任何标记帐户为" Business"帐户。

或解决此问题的任何其他聪明方法。

2 个答案:

答案 0 :(得分:2)

当前在有效负载中最接近的事情表明这将是"已验证" Twitter User object

上的字段

你可以使用"verified": true作为一个强烈的积极信号,但我不认为"verified": false对你来说意义重大。

你也可以使用以上所有加Mechanical Turk来确定。

答案 1 :(得分:1)

Twitter User object documentation

要在User对象中检查的一些内容:

默认配置文件

如果default_profiledefault_profile_image为真,则删除这些默认配置文件。

关注者/关注

该帐户是否有很多关注者?您可以比较以下与粉丝的数量。成功的组织通常会有更多人关注他们,而不是他们关注的帐户数量。这可能是也可能不是确定的。

网站

关注entities内的网址网址。该域名的WhoIs地址是商家或住宅地址吗?也许所有这些金融网站都在其网站上有关于金融的东西。您可能已在User对象的description字段中提及财务,资金或股票。 Yahoo Finance是否链接到同一个域?

实体识别

您可以对其用户名进行一些分析,也许可以使用一些NLP来查看它的命名实体类型。 ORG适用于公司,代理机构,机构等,或PERSON适用于个人。 NORPFACILITY也可以提供帮助。请查看spaCy的Built-in Entity Types了解更多信息。

评分

想出所有指标以及那些不确定的指标,尝试对它们进行评分,以便最有可能的候选人得分最高。你必须选择合理的数字,用你的直觉。

e.g:

  • > 1000名粉丝 +2
  • 粉丝>关注 +3
  • “我们是一家财务公司”的描述 +15

Twitter对User object进行了广泛的记录。您可以查看并比较一些其他项目,以确定实体代表自己的内容或个人,在您的情况下,财务公司。你当然必须首先找到帐户才能验证它们,但你可以先看看谁Yahoo Finance follows,但它可能是一堆什么,但你也可以挖出他们的追随者跟随,他们的跟随,和......

如果您或其他任何人有更多想法,请随时编辑此答案。