Question

我很难理解建立一个词袋的过程。这将是多类分类监督机器学习问题，其中网页或一段文本被分配给来自多个预定义类别的一个类别。现在，在为特定类别（例如，数学＆＃39;）构建一个单词包时，我熟悉的方法是收集大量与Math相关的网页。从那里，我将执行一些数据处理（例如删除停用词和执行TF-IDF）以获得类别＆＃39;数学＆＃39;

的词袋。

问题：我想到的另一种方法是在谷歌中搜索类似“与数学相关的术语列表”的内容。建立我的口袋。我想问这个方法是否还可以？

另一个问题：在这个问题的背景下，词袋和语料库是否意味着同样的事情？

提前谢谢！

Answer 1

这不是什么词包。词袋是描述表示给定文档的特定方式的术语。即，文档（段落，句子，网页）表示为形式的映射

word: how many times this word is present in a document

例如＆＃34;约翰喜欢猫，喜欢狗和＃34;将表示为：{john：1，喜欢：2，猫：1，和：1，狗：1}。这种表示可以很容易地输入到典型的ML方法中（特别是如果假设总词汇量是有限的，那么我们最终得到数字向量）。

请注意，这是不关于＆＃34;为类别创建一个单词＆＃34;。在典型的监督学习中，类别将由多个文档组成，并且每个文档独立都表示为一个单词包。

特别是这会使您向谷歌询问与类别相关的单词的最终提议无效 - 这不是ML方法的典型工作方式。您可以获得大量文档，将它们表示为单词（或其他内容），然后执行统计分析（构建模型）以找出区分类别的最佳规则集。这些规则通常不会简单＆＃34;如果单词X存在，则与Y＆＃34;相关。

使用Google搜索术语列表，以便为特定类别构建一个词袋

1 个答案: