我目前正在尝试将雅虎财经公司与其Twitter帐户进行匹配。
到目前为止,我正在编写一个脚本,将公司名称与Twitter句柄进行部分字符串匹配,并将公司网页与其Twitter帐户上的URL进行匹配。这是不完美的,有时会与错误的帐户匹配
我想知道Twitter API中是否有任何标记帐户为" Business"帐户。
或解决此问题的任何其他聪明方法。
答案 0 :(得分:2)
当前在有效负载中最接近的事情表明这将是"已验证" Twitter User object
上的字段你可以使用"verified": true
作为一个强烈的积极信号,但我不认为"verified": false
对你来说意义重大。
你也可以使用以上所有加Mechanical Turk来确定。
答案 1 :(得分:1)
要在User对象中检查的一些内容:
如果default_profile
或default_profile_image
为真,则删除这些默认配置文件。
该帐户是否有很多关注者?您可以比较以下与粉丝的数量。成功的组织通常会有更多人关注他们,而不是他们关注的帐户数量。这可能是也可能不是确定的。
关注entities
内的网址网址。该域名的WhoIs地址是商家或住宅地址吗?也许所有这些金融网站都在其网站上有关于金融的东西。您可能已在User对象的description
字段中提及财务,资金或股票。 Yahoo Finance是否链接到同一个域?
您可以对其用户名进行一些分析,也许可以使用一些NLP来查看它的命名实体类型。 ORG
适用于公司,代理机构,机构等,或PERSON
适用于个人。 NORP
和FACILITY
也可以提供帮助。请查看spaCy的Built-in Entity Types了解更多信息。
想出所有指标以及那些不确定的指标,尝试对它们进行评分,以便最有可能的候选人得分最高。你必须选择合理的数字,用你的直觉。
e.g:
Twitter对User object进行了广泛的记录。您可以查看并比较一些其他项目,以确定实体代表自己的内容或个人,在您的情况下,财务公司。你当然必须首先找到帐户才能验证它们,但你可以先看看谁Yahoo Finance follows,但它可能是一堆什么,但你也可以挖出他们的追随者跟随,他们的跟随,和......
如果您或其他任何人有更多想法,请随时编辑此答案。