用类扩大文本语料库

时间:2014-04-08 12:07:35

标签: machine-learning nlp linguistics

我有一个包含许多句子的文本语料库,其中标有一些命名实体。 例如,句子:

威奇托德克萨斯州最好的餐厅是什么?

标记为:

<location>中最好的餐厅是什么?

我想扩展这个语料库,通过对其中已有的所有句子进行取样或采样,并用相同类型的其他类似实体替换命名实体,例如将“wichita texas”替换为“new york”,因此语料库将更大(更多句子)和更完整(其中的实体数量)。我有类似实体的列表,包括那些没有出现在语料库中的实体,但我希望有机会将它们插入我的替换中。

你能推荐一种方法或指导我写一篇论文吗?

1 个答案:

答案 0 :(得分:1)

针对您的具体问题: 这种类型的工作,假设您有一个有组织的命名实体列表(如“&#39;人员&#39;等”的单独列表),通常包括手动删除可能含糊不清的名称(例如,“球衣”可以从您的地点列表中删除,以避免它引用服装的情况。一旦您确信删除了最模糊的名称,只需为每组术语选择一个合适的标签(例如,#34;位置&#34;或者#34; person&#34;)。在包含其中一个单词的每个句子中,将该单词替换为标签。然后,您可以使用您选择的编程语言执行一些基本扩展,以便每个句子包含&#39; location&#39;每个位置名称都会重复,每个句子都包含“人物”字样。每个人的姓名等都会重复。

有关使用单词类进行聚类的一般概述,请查看开创性的Brown等。人。论文:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf