我想在Twitter上进行网上诱骗/垃圾邮件检测。 我通过twitter提供的Streaming API获得了大约500,000条推文。然后我提取这些推文中出现的网址,并将它们提交给两个黑名单 - 谷歌安全浏览和Phishtanks,以接收是否是网络钓鱼链接的基本判断。这里的问题是,根据我的实验结果,我无法获得足够的网络钓鱼推文样本。 是否有任何已经标记为恶意/正常的现有推文数据,以便我可以继续我的工作?
答案 0 :(得分:0)
网址黑名单效果不佳,因为存在延迟。您可以使用暂停的帐户作为标签,但您应该注意并非所有被暂停的帐户都是网络钓鱼帐户。