市场上有许多社交媒体监控网站。我很好奇这些网站如何获取如此庞大数量的用户的帖子。他们如何知道应该提取哪些用户的帖子?
例如,如果一个网站需要我使用我的Facebook帐户登录,它只是获取/分析我或我朋友的帖子。这是合理的。但是几天前我尝试了几种社交媒体监控服务,我发现有大量的数据被提取,各种用户都被包含在内。
服务如何知道他们应该获取哪些用户的数据?如果他们获取某个社交网站的所有帖子,他们如何实现这一目标?社交网站的API是否始终禁止应用程序大量获取数据?
答案 0 :(得分:1)
应用程序Social Radar主要是爬虫驱动的。这类似于Google.com搜索引擎的工作方式。
Google并不担心他们抓取哪些用户的内容,他们只是索引他们可以找到的内容。内容通常在生态系统中构建,因此如果您可以找到对话的一部分,您通常也可以发现其余部分。这在垃圾邮件过滤过程中也是真实有用的。
API也被利用,术语因服务而异。