应用错误收集

针对网络钓鱼或垃圾邮件推文的培训数据

时间：2015-02-09 07:49:42

标签： twitter spam phishing

我想在Twitter上进行网上诱骗/垃圾邮件检测。我通过twitter提供的Streaming API获得了大约500,000条推文。然后我提取这些推文中出现的网址，并将它们提交给两个黑名单 - 谷歌安全浏览和Phishtanks，以接收是否是网络钓鱼链接的基本判断。这里的问题是，根据我的实验结果，我无法获得足够的网络钓鱼推文样本。是否有任何已经标记为恶意/正常的现有推文数据，以便我可以继续我的工作？

1 个答案:

答案 0 :(得分：0)

网址黑名单效果不佳，因为存在延迟。您可以使用暂停的帐户作为标签，但您应该注意并非所有被暂停的帐户都是网络钓鱼帐户。

网络钓鱼检测的网站快照？
公开可用的垃圾邮件过滤器培训集
垃圾邮件检测器的输入数据
贝叶斯网络能否在没有垃圾邮件训练集的情况下检测到垃
标记来自Python中的训练数据的推文
垃圾邮件发送者如何快速发布垃圾邮件
针对网络钓鱼或垃圾邮件推文的培训数据
网络钓鱼和垃圾邮件
推特上的斯坦福NER培训
从Tweepy Streaming API输出中过滤垃圾邮件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？