应用错误收集

时间：2019-07-05 18:14:16

标签： machine-learning encoding svm logistic-regression categorical-data

我有一个很大的数据集，其中一个功能是分类（标称）URL，它包含不同的URL。例如，www.google.com，www.facebook.com，www.youtube.com，www.yahoo.com，www.amazon.com等。在一百万行中有500多个不同的URL。

哪种编码是对这种分类特征进行编码的最佳方法，以便我可以将编码后的特征传递给Logistic回归模型？

我尝试使用sklearn的标签编码，但效果不佳，仅用1、2、3，...标记URL并没有形成它们之间的任何关系。

我努力使用一种热编码，但是它将为我的模型创建500多个新功能，并且不必要地增加了模型的复杂性。

代码和数据是机密的，我不能提供。

标签编码效果不佳，一键编码会使模型过于复杂。

答案 0 :(得分：0)

我首先要问这个变量是否完全必要？是可以丢弃的东西吗？

如果不能删除，我将对显示的网站进行频率绘图。您提到的网站可能会比其他晦涩的网站显示更多。我会使用直方图来选择前10位或前12位，等等。