我正在开发一个个人机器学习项目,我试图在类非常不平衡时将数据分类为二进制类。我最初试图实现Hierarchical Sampling for Active Learning
by S Dasgupta
中提出的方法,该方法利用数据集的集群结构来帮助主动学习者。
但是,我正在努力实现本文中提出的算法。我到目前为止已写过这个,但不确定如何继续:
from scipy.spatial.distance import pdist, squareform
from scipy.cluster.hierarchy import linkage, dendrogram
data_dist = pdist(X) # computing the distance
data_link = linkage(data_dist) # computing the linkage
数据存储在X
中,并在y
中存储正确的分类。样本数据集:
X = np.array([[0.3,0.7],[0.5,0.5] ,[0.2,0.8], [0.1,0.9]])
y = np.array([[0], [1], [0], [1]])
(注意实际数据集大约大500倍)
答案 0 :(得分:0)
S Dasgupta提出的主动学习的分层抽样现在在libact中实现,这是一个Python主动学习库。有关源代码,请参阅此link。
示例(来自doccumentation):
from libact.query_strategies import UncertaintySampling
from libact.query_strategies.multiclass import HierarchicalSampling
sub_qs = UncertaintySampling(
dataset, method='sm', model=SVM(decision_function_shape='ovr'))
qs = HierarchicalSampling(
dataset, # Dataset object
dataset.get_num_of_labels(),
active_selecting=True,
subsample_qs=sub_qs
)