主动学习的分层抽样的实现

时间:2017-04-23 18:08:50

标签: numpy machine-learning hierarchical-clustering

我正在开发一个个人机器学习项目,我试图在类非常不平衡时将数据分类为二进制类。我最初试图实现Hierarchical Sampling for Active Learning by S Dasgupta中提出的方法,该方法利用数据集的集群结构来帮助主动学习者。

但是,我正在努力实现本文中提出的算法。我到目前为止已写过这个,但不确定如何继续:

from scipy.spatial.distance import pdist, squareform
from scipy.cluster.hierarchy import linkage, dendrogram
data_dist = pdist(X) # computing the distance
data_link = linkage(data_dist) # computing the linkage

数据存储在X中,并在y中存储正确的分类。样本数据集:

X = np.array([[0.3,0.7],[0.5,0.5] ,[0.2,0.8], [0.1,0.9]])
y = np.array([[0], [1], [0], [1]])

(注意实际数据集大约大500倍)

1 个答案:

答案 0 :(得分:0)

S Dasgupta提出的主动学习的分层抽样现在在libact中实现,这是一个Python主动学习库。有关源代码,请参阅此link

示例(来自doccumentation):

   from libact.query_strategies import UncertaintySampling
   from libact.query_strategies.multiclass import HierarchicalSampling
   sub_qs = UncertaintySampling(
       dataset, method='sm', model=SVM(decision_function_shape='ovr'))
   qs = HierarchicalSampling(
            dataset, # Dataset object
            dataset.get_num_of_labels(),
            active_selecting=True,
            subsample_qs=sub_qs
        )