Google的In Quotes如何运作?

时间:2008-10-25 17:25:38

标签: algorithm nlp

我发现Google的In Quotes是一个非常漂亮的应用程序,作为一个CS人,我必须了解它是如何工作的。您认为它如何将新闻文章变成属于特定人的报价单? 当然,有一些错误,但他们的算法似乎比一个简单的启发式或多个正则表达式更聪明。例如,引用可归因于某人,即使他/她的名字仅在最后一段中提到过。

有什么想法吗?关于这个问题的任何已知论文?

3 个答案:

答案 0 :(得分:1)

这很简单,它检查单词,但只要它们仍然有序,它们之间就可以有任何东西。 “你好,世界!”将成为正则表达式/你好[。] *世界/

答案 1 :(得分:0)

我没有任何论文,但有些想法。谷歌引用了一组人的引用。通过Google新闻和其他媒体访问轻松实现这些目标。

他们有另一套主题。谷歌匹配主题集与人集(两者都是有限的)。最后一组都是引用,

如果您注意到,主题包含引号中突出显示的1个单词。因此,它具有主题集和每组人的引用集之间的关系。由于Google是信息的主人,因此必须非常容易在所有这些设置之间建立链接。

答案 2 :(得分:0)

我对您的问题没有答案,但我的建议是您直接通过Google moderator向Google工程师询问。您可能无法快速(或根本没有)得到答案,但您会在那里得到准确答案。