我现在正在做一个NLP项目,需要一些来自twitter的资源。
我希望得到那些发布的真实人物和#34;而不是任何类型的官方帐户",包括名人,广告,机构,媒体等,如@CNN @TodayWeather @obama @DailySale @BestPrice @FashionTrend。
因此,有更好的方法吗?
我已经考虑了很长时间了。通过使用twitter的API,返回的JSON包含一个名为"已验证的密钥"。这可用于检测天气帐户是那种官方帐户"。然而,今天,这个蓝色" V"嘀嗒声不仅适合那些闪亮的名人。任何人都可以申请,只要他们是真人。因此,我认为使用此解决方案将排除大量宝贵资源。
此外,我还考虑使用文本垃圾邮件过滤器。是的,当然,在大多数情况下,它们都很好。但是,有些帐户,例如@FT,他们的帖子听起来不像垃圾广告。但这不是我想要的。
我想要求更好的解决方案。它可以是一个长期解决方案,例如使用NLP和NeuroNets来学习标签。但是,一个迅速的解决方案将非常受欢迎。
THX