Question

我必须实现Distant Supervision python代码。我为未标记的数据池构建了一个特征向量。特征向量包含句子的词汇特征。我无法理解如何在此向量上应用分类器。

修改
1）我有一个未标记的数据池，我希望从中提取新的关系 2）我有一个包含typeOf关系的文件。所以根据这个文件中的关系，我希望在我的数据中得到新的关系 3）我从句子中提取了以下格式的词汇特征：

[[实体之间的单词序列“，”这些单词的POS标签“，”表示哪个实体首先出现的标志“，”实体1左侧的k个单词的窗口“，”这些单词的POS标签“ ，“实体2右边的k字窗口”，“这些标签的POS”，....]

这是typeOf.txt文件（关系文件）中存在的数据的示例：

Tupi ----------------- 2D动画软件
Pencil2D ----------- 2D动画软件
SWFTools ---- ----- 2D动画软件
Synfig -------------- 2D动画软件
Flipnote Studio --- 2D动画软件

我希望这会让我的查询更加清晰。

Answer 1

回答这个问题的信息很少，但我会尝试。

远程监督是生成训练数据的另一种方法，但是，（如果我理解你）你已经拥有训练数据，这是你所描述的句子的词汇特征。因此，基于您已经拥有训练集的原则，现在，您需要“分类”。如果我了解你，你没有标签，所以你应该使用一些无监督的学习技巧。无监督学习有很多算法，最流行的是k-means。例如，在下面的代码段代码中，变量X包含要聚类的向量，您可以在其中用您的词法特征向量替换。

希望我帮助过你。

from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_

kmeans.predict([[0, 0], [4, 4]])

kmeans.cluster_centers_

远程监管守则

1 个答案: