针对网络钓鱼或垃圾邮件推文的培训数据

时间:2015-02-09 07:49:42

标签: twitter spam phishing

我想在Twitter上进行网上诱骗/垃圾邮件检测。 我通过twitter提供的Streaming API获得了大约500,000条推文。然后我提取这些推文中出现的网址,并将它们提交给两个黑名单 - 谷歌安全浏览和Phishtanks,以接收是否是网络钓鱼链接的基本判断。这里的问题是,根据我的实验结果,我无法获得足够的网络钓鱼推文样本。 是否有任何已经标记为恶意/正常的现有推文数据,以便我可以继续我的工作?

1 个答案:

答案 0 :(得分:0)

网址黑名单效果不佳,因为存在延迟。您可以使用暂停的帐户作为标签,但您应该注意并非所有被暂停的帐户都是网络钓鱼帐户。