我很难理解建立一个词袋的过程。这将是多类分类监督机器学习问题,其中网页或一段文本被分配给来自多个预定义类别的一个类别。现在,在为特定类别(例如,数学')构建一个单词包时,我熟悉的方法是收集大量与Math相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行TF-IDF)以获得类别'数学'
的词袋。问题:我想到的另一种方法是在谷歌中搜索类似“与数学相关的术语列表”的内容。建立我的口袋。我想问这个方法是否还可以?
另一个问题:在这个问题的背景下,词袋和语料库是否意味着同样的事情?
提前谢谢!
答案 0 :(得分:0)
这不是什么词包。词袋是描述表示给定文档的特定方式的术语。即,文档(段落,句子,网页)表示为形式的映射
word: how many times this word is present in a document
例如"约翰喜欢猫,喜欢狗和#34;将表示为:{john:1,喜欢:2,猫:1,和:1,狗:1}。这种表示可以很容易地输入到典型的ML方法中(特别是如果假设总词汇量是有限的,那么我们最终得到数字向量)。
请注意,这是不关于"为类别创建一个单词"。在典型的监督学习中,类别将由多个文档组成,并且每个文档独立都表示为一个单词包。
特别是这会使您向谷歌询问与类别相关的单词的最终提议无效 - 这不是ML方法的典型工作方式。您可以获得大量文档,将它们表示为单词(或其他内容),然后执行统计分析(构建模型)以找出区分类别的最佳规则集。这些规则通常不会简单"如果单词X存在,则与Y"相关。