Question

我需要通过python脚本将给定的网址分类为色情或非色情网页（不是通过亲自访问和观看视频），我想通过对每个网址包含的字词进行分类来计算每个网址的色情概率，例如：如果网址包含单词“爆炸”。和＆＃39; 18＆＃39;它的色情网站很有可能，我试图实现它，但它不是非常准确，有没有任何python库可以帮助我分类这些网址？我正在寻找可以从测试数据中学习的库，例如智能反垃圾邮件过滤器，例如：

    data = {
    'google.com':0,
    'superxxx.com':1,
    'bigbangtheory.com':0,
    'hot18bangbang.com':1,
     ...
     ...
}

依此类推，我收集了很多关于“坏”的信息。网址，所以我想我可以训练一些AI分类器。如果这是个坏主意，你能否建议我过滤掉“坏”的方法。来自＆＃39; good＆＃39;的网址网址？

Answer 1

这是逻辑回归的一个很好的用例，但它对Stack Overflow来说不是一个很好的问题。如果您已经拥有培训数据，请找一个工具（或者自己实施，因为它不会那么困难），然后问一个关于您使其工作的麻烦的问题。 Stack Overflow不适合使用工具的建议。

Answer 2

这样做的现代方法是使用字符级LSTM序列分类器。它需要相当大量的数据，但通过获取家庭过滤器黑名单的示例，它不应该太难找到。

以下是这个概念的一些例子：

我将从这里开始，一篇关于角色级别LSTM的文章：The Unreasonable Effectiveness of Recurrent Neural Networks
Making a Manageable Email Experience with Deep Learning
Sequence Classification with LSTM Recurrent Neural Networks in Python with Keras

递归神经网络是神经网络，它将自己的输出作为下一步的输入，或者学习输出在下一步传递给自己的细胞的状态向量，以表示短期记忆。

基本上，你的特征是字母的子序列序列（又名，友谊在一个热表示中变成[frie, frien, riend, iends, endsh, ...]），并且你有一个神经网络，其状态随着它看到的子序列而演变，并且给你最后的判决。

自学习网址过滤器

2 个答案: