应用错误收集

文档是文本文件中的一个句子吗？

时间：2017-03-16 18:16:02

标签： python nlp information-retrieval

例如，当计算语料库中单词的通用性折扣时，一个公式是log（N / n），其中N是语料库中的文档数，n是包含单词的数字文档。

文档是以新行结尾的字符串吗？

2 个答案:

答案 0 :(得分：0)

听起来像是在谈论矢量空间建模。请参阅text analysis group's definition of Vector space model procedure。这是一个三步过程;第二阶段索引和加权单词，以便提高检索与搜索者相关的文档的可能性。许多单词被认为是非重要的（例如英语：“a”，“the”，“an”），并且出于第二阶段的目的，这些单词被忽略。你提到的公式经常出现在这个过程的这个阶段。关于在此上下文中的文档是什么：整个文档被转换为描述文档的显着内容的“文档向量”;想想这个过程就好像图书管理员用一个简短的摘要来描述一本书。换句话说，该文档是已经“矢量化”的整个文本，书籍，网页 - 它不是由换行符描绘的单行。

答案 1 :(得分：0)

这取决于你所谓的“文件”。

对我来说，这听起来像是在描述文档中的段落。它可以是一个文档，但是你必须通过全文和该文档中的某种偏移来识别“文档”，并适当地提供文档。