“统计上不可能的短语”有何用处?
根据亚马逊的说法:
Amazon.com的统计数据不太可能 短语或“SIP”是最多的 文本中的独特短语 Search Inside!™计划中的书籍。 为了识别SIP,我们的计算机扫描 搜索中所有书籍的文字 内!程序。如果他们找到一个短语 这种情况很多次发生在 一本关于所有人的特定书 在里面搜索!书,那句话是一个 那本书中的SIP。
SIP不一定不可能 在一本特定的书中,但它们是 相对于所有书籍而言,这是不可能的 在里面搜索!例如,大多数SIP 有关税收的书与税收有关。 但是因为我们按顺序显示SIP 他们的不可能得分, 第一个SIP将涉及税务主题 这本书经常提到 其他税书。对于小说作品, SIPs往往是独特的词 通常暗示的组合 重要的情节元素。
例如,对于Joel的第一本书,SIP是:泄漏抽象,抗锯齿文本,自己的狗食,错误计数,每日构建,错误数据库,软件时间表
一个有趣的复杂因素是这些是2或3个单词的短语。这使事情变得更有趣,因为这些短语可以相互重叠或相互包含。
答案 0 :(得分:16)
这很像Lucene为给定搜索查询排序文档的方式。他们使用称为TF-IDF的度量,其中TF是术语频率,idf是逆文档频率。前者对文档的排名越高,查询术语在该文档中出现的越多,如果文档中的查询条件在所有文档中不常出现,则后者对文档进行排序。他们计算的具体方式是log(文档数/带有术语的文档数) - 即该术语出现的频率的倒数。
所以在你的例子中,这些短语是相对于乔尔的书的SIP,因为它们是罕见的短语(出现在几本书中),并且在他的书中多次出现。
编辑:在回答有关2克和3克的问题时,重叠无关紧要。考虑一句“我的两只狗是棕色的”。在这里,2克的列表是[“我的两个”,“两只狗”,“狗是”,“是棕色的”],3克的列表是[“我的两只狗”,“两只狗是“,”狗是棕色的“]。正如我在评论中提到的,对于N个单词流,你会得到N-1 2-gram和N-2 3-gram。因为2克只能等于其他2克,同样3克,你可以分别处理这些情况。当处理2克时,每个“单词”将是2克等等。
答案 1 :(得分:10)
他们可能正在使用tf-idf权重的变体,检测特定书中出现次数很多但在整个语料库中减去特定书籍的次数。对每本书重复一遍。
因此,“不可能性”与整个语料库相关,可以被理解为“唯一性”,或“与图书馆其他部分相比,使图书独特的原因”。
当然,我只是在猜测。
答案 2 :(得分:5)
作为一个起点,我会看Markov Chains。
一个选项:
一个有趣的扩展是运行马尔可夫链生成器,其中权重表是全局和局部语料库之间差异的放大。这将产生作者风格特质的“漫画”(字面意思)。
答案 3 :(得分:5)
LingPipe有关于如何执行此操作的tutorial,并且它们链接到引用。他们不讨论它背后的数学,但他们的源代码是开放的,所以你可以查看他们的源代码。
我不能说我知道亚马逊做了什么,因为他们可能保守秘密(或者至少他们只是没有打扰告诉任何人)。
答案 4 :(得分:3)
很抱歉恢复旧的线程,但我在这里找到了同样的问题,并发现有一些新的工作可能会添加到这个伟大的线程中。
我觉得SIP文件比TF-IDF分数高的单词更独特。例如,在关于 Harry Potter 的文档中,像 Hermione Granger 和 Hogwarts 这样的术语往往是更好的SIP,其中像 magic这样的术语和伦敦不是。 TF-IDF并不擅长这种区分。
我遇到了一个有趣的SIP定义here。在这项工作中,短语被建模为n-gram,并且计算它们在文档中出现的概率以识别它们的唯一性。
答案 5 :(得分:1)
我很确定它将SIP识别为独特的SIP组合。在你的例子中,另一本书在同一本书中有“漏洞抽象”和“自己的狗食”,这是非常罕见的。
然而我在这里做了一个假设,因为我不确定。