应用错误收集

我现在正在做一个NLP项目，需要一些来自twitter的资源。

我希望得到那些发布的真实人物和＃34;而不是任何类型的官方帐户＆＃34;，包括名人，广告，机构，媒体等，如@CNN @TodayWeather @obama @DailySale @BestPrice @FashionTrend。

因此，有更好的方法吗？

我已经考虑了很长时间了。通过使用twitter的API，返回的JSON包含一个名为＆＃34;已验证的密钥＆＃34;。这可用于检测天气帐户是那种官方帐户＆＃34;。然而，今天，这个蓝色＆＃34; V＆＃34;嘀嗒声不仅适合那些闪亮的名人。任何人都可以申请，只要他们是真人。因此，我认为使用此解决方案将排除大量宝贵资源。

此外，我还考虑使用文本垃圾邮件过滤器。是的，当然，在大多数情况下，它们都很好。但是，有些帐户，例如@FT，他们的帖子听起来不像垃圾广告。但这不是我想要的。

我想要求更好的解决方案。它可以是一个长期解决方案，例如使用NLP和NeuroNets来学习标签。但是，一个迅速的解决方案将非常受欢迎。

THX

如何过滤掉不需要的/官方Twitter帖子

0 个答案: