比较两个英文字符串的相似之处

时间:2011-08-17 00:27:30

标签: algorithm text comparison nlp compare

所以这是我的问题。我有两段文字,我需要看看它们是否相似。不是字符串指标而是意义。以下两段是相关的,但我需要了解它们是否涵盖“相同”主题。任何帮助或解决这个问题的方向将不胜感激。

  

化石燃料是通过厌氧等自然过程形成的燃料   埋藏死亡生物的分解。生物的年龄和   他们产生的化石燃料通常是数百万年,而且   有时超过6.5亿年。化石燃料,含有   高百分比的碳,包括煤,石油和天然气。   化石燃料的范围从低碳的挥发性材料:氢   比例如甲烷,液体石油和非挥发性物质   由几乎纯净的碳组成,如无烟煤。甲烷可以   发现于油气田,单独,与石油有关,或在油田中   甲烷包合物的形式。人们普遍接受他们的形成   来自死亡植物的化石残骸通过暴露于热和   数百万年来地球地壳的压力。这种生物   理论最早由Georg Agricola于1556年推出,后来由   米哈伊尔·罗蒙诺索夫在18世纪。

第二

  

化石燃料重整是生产氢气或其他的方法   来自天然气等化石燃料的有用产品。这是   在称为重整器的处理装置中实现,该装置反应蒸汽   在高温下使用化石燃料。蒸汽甲烷重整器   在工业上广泛用于制氢。也有兴趣   基于类似技术开发更小的单元   产生氢气作为燃料电池的原料。小规模的蒸汽   改革单位供应燃料电池是目前的主题   研究和开发,通常涉及改革   甲醇或天然气,但也考虑其他燃料   丙烷,汽油,汽油,柴油和乙醇。

3 个答案:

答案 0 :(得分:5)

这是一项艰巨的任务。如果我是你,我会开始阅读自然语言处理。 NLP是一个相当大的领域 - 我建议专门研究维基百科文本分析文章"Processes" section中提到的内容。

我认为如果您使用information retrievalnamed entity recognitionsentiment analysis,那么您应该顺利完成任务。

答案 1 :(得分:3)

总的来说,我认为这仍然是一个悬而未决的问题。自然语言处理仍然是一个新生的领域,虽然我们可以很好地做一些事情,但是进行这种分类和分类仍然非常困难。

我不是NLP的专家,但您可能想查看讨论情感分析和作者身份检测的these lecture slides。您可能用于进行所建议的文本比较的技术与您用于上述分析的技术有关,您可能会发现这是一个很好的起点。

希望这有帮助!

答案 2 :(得分:2)

您还可以在机器学习中查看Latent Dirichlet Allocation(LDA)模型。我们的想法是找到每个文档(或段落)的低维表示,只是作为对某些“主题”的分布。使用文档/段落的集合以无人监督的方式训练模型。

如果您在段落集合上运行LDA,那么通过查看隐藏主题向量的相似性,您可以找到给定的两个段落是否相关。

当然,基线是不使用LDA,而是使用术语频率(用tf / idf增加)来测量相似性(向量空间模型)。