在机器学习中对大型数据集中的分类数据(URL)进行编码的最佳方法?

时间:2019-07-05 18:14:16

标签: machine-learning encoding svm logistic-regression categorical-data

我有一个很大的数据集,其中一个功能是分类(标称)URL,它包含不同的URL。例如,www.google.com,www.facebook.com,www.youtube.com,www.yahoo.com,www.amazon.com等。在一百万行中有500多个不同的URL。

哪种编码是对这种分类特征进行编码的最佳方法,以便我可以将编码后的特征传递给Logistic回归模型?

我尝试使用sklearn的标签编码,但效果不佳,仅用1、2、3,...标记URL并没有形成它们之间的任何关系。

我努力使用一种热编码,但是它将为我的模型创建500多个新功能,并且不必要地增加了模型的复杂性。

代码和数据是机密的,我不能提供。

标签编码效果不佳,一键编码会使模型过于复杂。

1 个答案:

答案 0 :(得分:0)

我首先要问这个变量是否完全必要?是可以丢弃的东西吗?

如果不能删除,我将对显示的网站进行频率绘图。您提到的网站可能会比其他晦涩的网站显示更多。我会使用直方图来选择前10位或前12位,等等。