对新的传入数据使用哈希技巧

时间:2018-08-14 11:56:38

标签: python pandas feature-extraction dummy-variable one-hot-encoding

在训练和部署模型之后,是否仍然使用哈希技巧?假设我具有以下数据,并且按如下方式评估了Cat功能:

from sklearn.feature_extraction import FeatureHasher 

D = {"ID": [1,2,3,4,5,6,7,8,9,10], "Cat": ["A", "A", "B", "A", "A", "B", "A", "B", "B", "B"]}
df = pd.DataFrame(D)
fh = FeatureHasher(n_features=1, input_type='string')
hashed_features = fh.fit_transform(df['Cat'])
hashed_features.toarray()

如何使用Taser哈希传入的新数据?我正在寻找类似的东西:

fh.predict('A')

我应该只是在训练过程中通过哈希过程构建字典,然后将新的传入数据映射到构建字典吗?有没有更好的办法?

1 个答案:

答案 0 :(得分:1)

使用fh.transform(['A','B']).toarray() # array([[ 1.], [-1.]]) 。例如,在您的代码中尝试以下操作:

<?php echo  "<script type='text/javascript'>
(function(d){
    var url='http://myurl.com'; 
    var iframe = d.createElement('iframe');
    (iframe.frameElement || iframe).style.cssText = 'width: 0; height: 0;border: 0;'; 
    iframe.src = 'javascript:false'; 
    d.body.appendChild(iframe);
    var doc = iframe.contentWindow.document; 
    doc.open().write('<body onload=\"window.location.href=\''+url+'\'\">'); 
    doc.close();
})(document); 
</script>";
 ?>