远程监管守则

时间:2016-12-21 08:20:42

标签: python-3.x nlp

我必须实现Distant Supervision python代码。我为未标记的数据池构建了一个特征向量。特征向量包含句子的词汇特征。我无法理解如何在此向量上应用分类器。

修改
1)我有一个未标记的数据池,我希望从中提取新的关系 2)我有一个包含typeOf关系的文件。所以根据这个文件中的关系,我希望在我的数据中得到新的关系 3)我从句子中提取了以下格式的词汇特征:

[[实体之间的单词序列“,”这些单词的POS标签“,”表示哪个实体首先出现的标志“,”实体1左侧的k个单词的窗口“,”这些单词的POS标签“ ,“实体2右边的k字窗口”,“这些标签的POS”,....]

这是typeOf.txt文件(关系文件)中存在的数据的示例:

Tupi ----------------- 2D动画软件
Pencil2D ----------- 2D动画软件
SWFTools ---- ----- 2D动画软件
Synfig -------------- 2D动画软件
Flipnote Studio --- 2D动画软件

我希望这会让我的查询更加清晰。

1 个答案:

答案 0 :(得分:0)

回答这个问题的信息很少,但我会尝试。

远程监督是生成训练数据的另一种方法,但是,(如果我理解你)你已经拥有训练数据,这是你所描述的句子的词汇特征。因此,基于您已经拥有训练集的原则,现在,您需要“分类”。如果我了解你,你没有标签,所以你应该使用一些无监督的学习技巧。无监督学习有很多算法,最流行的是k-means。例如,在下面的代码段代码中,变量X包含要聚类的向量,您可以在其中用您的词法特征向量替换。

希望我帮助过你。

from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_

kmeans.predict([[0, 0], [4, 4]])

kmeans.cluster_centers_