如何查找两个或多个文本是否相关

时间:2015-05-08 21:05:11

标签: algorithm nlp

假设我们有两个英文文本T1和T2(不相交没有重叠)从较大的文本T中删除。有没有办法弄清楚T1和T2来自一个较大的文本?

例如,报纸布局是多列文本。鉴于来自报纸任何地方的两列文字,我想知道这两列文本是否来自同一个故事。

1 个答案:

答案 0 :(得分:-2)

您没有说出要使用哪种语言/环境,但您可以通过多种不同的方式进行操作。例如,在C中,您可以使用strstr()

char *newspaper_text = "At 4:00 AM a terrible tragedy struck Rand's Pandy Panda Farm....";

char *potentional_excerpt = "Mr. Jibber's panda has been airborne ever since."

char *location_of_excerpt_in_text = strstr(newspaper_text, potentional_excerpt);

if(location_of_excerpt_in_text)
    printf("Excerpt found!\n");