我必须实现Distant Supervision python代码。我为未标记的数据池构建了一个特征向量。特征向量包含句子的词汇特征。我无法理解如何在此向量上应用分类器。
修改
1)我有一个未标记的数据池,我希望从中提取新的关系
2)我有一个包含typeOf关系的文件。所以根据这个文件中的关系,我希望在我的数据中得到新的关系
3)我从句子中提取了以下格式的词汇特征:
[[实体之间的单词序列“,”这些单词的POS标签“,”表示哪个实体首先出现的标志“,”实体1左侧的k个单词的窗口“,”这些单词的POS标签“ ,“实体2右边的k字窗口”,“这些标签的POS”,....]
这是typeOf.txt文件(关系文件)中存在的数据的示例:
Tupi ----------------- 2D动画软件
Pencil2D ----------- 2D动画软件
SWFTools ---- ----- 2D动画软件
Synfig -------------- 2D动画软件
Flipnote Studio --- 2D动画软件
我希望这会让我的查询更加清晰。
答案 0 :(得分:0)
回答这个问题的信息很少,但我会尝试。
远程监督是生成训练数据的另一种方法,但是,(如果我理解你)你已经拥有训练数据,这是你所描述的句子的词汇特征。因此,基于您已经拥有训练集的原则,现在,您需要“分类”。如果我了解你,你没有标签,所以你应该使用一些无监督的学习技巧。无监督学习有很多算法,最流行的是k-means。例如,在下面的代码段代码中,变量X包含要聚类的向量,您可以在其中用您的词法特征向量替换。
希望我帮助过你。from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
[4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_
kmeans.predict([[0, 0], [4, 4]])
kmeans.cluster_centers_