这个问题类似于问题How to find that one text is similar to the part of another?。有一段有关巴拉克·奥巴马(Barack Obama)青年的文字。这里有一个语义片段(样本)列表,您需要在文本中找到它们或确保它们不存在。
pieces = [“巴拉克·奥巴马(Barack Obama)出生于夏威夷”,
“父亲来自非洲”
“母亲安·达勒姆(Ann Durham)最初来自堪萨斯州”,
“奥巴马妈妈从印度尼西亚再婚了,他们搬到了那里”,
“奥巴马回到夏威夷,就读于普那厚学校”,
“奥巴马上了洛杉矶的西方学院”,
“他转移到纽约市的哥伦比亚大学,获得政治学学位”,
“他在芝加哥为社会服务组织工作”,
“奥巴马被哈佛法学院录取,并当选为《哈佛法律评论》杂志社社长。”
“他在芝加哥为一家专门从事民权法的小公司工作”,
“奥巴马开始与米歇尔·罗宾逊约会,他们结婚了”
]。
我遵循了gojomo的建议:文本被分成大小相等的块。对于要检测的每个语义片段,计算单词移动器与每个文本块之间的距离。从样本中删除最少的文本块被认为与它的含义一致。在文本(+)中正确找到了除一个以外的所有样本。提出了一个问题,假设文本中没有任何块,其内容的含义与示例的含义一致。按照上述步骤,我们将找到一个文本块,将其称为X,从样本中删除最少的文本,但是如何确保它们的含义不同?为了解决这个问题,我们做了以下工作:为每个文本块添加一个样本,计算从结果文本片段到样本的距离,将最大值和最小值与X到样品。比较时未发现规律性。我感谢所有可以帮助拒绝在文本中出现意义样本的人。