例如,当计算语料库中单词的通用性折扣时,一个公式是log(N / n),其中N是语料库中的文档数,n是包含单词的数字文档。
文档是以新行结尾的字符串吗?
答案 0 :(得分:0)
听起来像是在谈论矢量空间建模。请参阅text analysis group's definition of Vector space model procedure。这是一个三步过程;第二阶段索引和加权单词,以便提高检索与搜索者相关的文档的可能性。许多单词被认为是非重要的(例如英语:“a”,“the”,“an”),并且出于第二阶段的目的,这些单词被忽略。你提到的公式经常出现在这个过程的这个阶段。关于在此上下文中的文档是什么:整个文档被转换为描述文档的显着内容的“文档向量”;想想这个过程就好像图书管理员用一个简短的摘要来描述一本书。换句话说,该文档是已经“矢量化”的整个文本,书籍,网页 - 它不是由换行符描绘的单行。
答案 1 :(得分:0)
这取决于你所谓的“文件”。
对我来说,这听起来像是在描述文档中的段落。它可以是一个文档,但是你必须通过全文和该文档中的某种偏移来识别“文档”,并适当地提供文档。