我有一个很大的数据集,其中一个功能是分类(标称)URL,它包含不同的URL。例如,www.google.com,www.facebook.com,www.youtube.com,www.yahoo.com,www.amazon.com等。在一百万行中有500多个不同的URL。
哪种编码是对这种分类特征进行编码的最佳方法,以便我可以将编码后的特征传递给Logistic回归模型?
我尝试使用sklearn的标签编码,但效果不佳,仅用1、2、3,...标记URL并没有形成它们之间的任何关系。
我努力使用一种热编码,但是它将为我的模型创建500多个新功能,并且不必要地增加了模型的复杂性。
代码和数据是机密的,我不能提供。
标签编码效果不佳,一键编码会使模型过于复杂。
答案 0 :(得分:0)
我首先要问这个变量是否完全必要?是可以丢弃的东西吗?
如果不能删除,我将对显示的网站进行频率绘图。您提到的网站可能会比其他晦涩的网站显示更多。我会使用直方图来选择前10位或前12位,等等。