如何对URL进行分类?什么是网址功能?如何从URL中选择和提取功能

时间:2014-10-20 00:22:19

标签: url machine-learning classification feature-extraction text-classification

我刚开始研究分类问题。它是一个两类问题,My Trained模型(机器学习)必须决定/预测允许URL或阻止它。

我的问题非常具体。

  1. 如何对网址进行分类?我应该使用普通的文本分析方法吗?
  2. 什么是网址功能?
  3. 如何从网址中选择和提取要素?

1 个答案:

答案 0 :(得分:7)

我假设您无权访问URL的内容,因此您只能从url字符串本身中提取功能。否则,使用URL的内容会更有意义。

以下是我将尝试的一些功能。有关更多想法,请参阅this论文:

  1. 所有网址组件。例如,此页面包含以下网址:

    http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

  2. 在URL的不同部分中出现的所有令牌应具有可变的分类值。在这种情况下,标记化后的最后一部分为此页面提供了很多功能。 (例如,分类,网址,选择,提取,功能

     * stackoverflow
     * com
     * questions
     * 26456904
     * how to classify urls what are urls features how to select and extract features
    
    1. 网址的长度;
    2. n-gram(以下为例2克)
      • 计算器-COM
      • com-questions
      • 问题-26456904
      • 26456904-如何
      • 如何对
      • ....