我刚开始研究分类问题。它是一个两类问题,My Trained模型(机器学习)必须决定/预测允许URL或阻止它。
我的问题非常具体。
答案 0 :(得分:7)
我假设您无权访问URL的内容,因此您只能从url字符串本身中提取功能。否则,使用URL的内容会更有意义。
以下是我将尝试的一些功能。有关更多想法,请参阅this论文:
所有网址组件。例如,此页面包含以下网址:
http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features
在URL的不同部分中出现的所有令牌应具有可变的分类值。在这种情况下,标记化后的最后一部分为此页面提供了很多功能。 (例如,分类,网址,选择,提取,功能)
* stackoverflow
* com
* questions
* 26456904
* how to classify urls what are urls features how to select and extract features