我正在尝试为工程,商业,数学,科学等特定类别构建自己的语料库......这将用于自动网页分类。假设我手动收集了100个与Math相关的网站。这100个网站可以被视为数学语料库吗?
另一个相关问题。这是如何区分词典的,而不是网站列表,它显示的是具有权重(例如0或1)到特定类别的单词列表?示例将是具有正面和负面权重的单词的情感词典。但是,使用数学,科学等类别而不是正面和负面。
答案 0 :(得分:1)
您说您想要进行一些网页分类,然后您遇到的问题是监督学习问题。你得到的数据是网页,所以我猜你实际上是将它们的内容提取为文本。您使用文本输入数据。由于您要对它们进行分类,因此每个输入数据都有一个或多个相应的标签,即您要预测的输出。您有多个标签,因此您想要多标签分类
要解决这个问题,由于大多数机器学习算法都使用数字向量,因此您需要将语料库文本转换为向量(或转换为一个矩阵)。为此,您可以使用首先构建字典或词典的 bag of word 技术,然后计算每个单词的出现次数每个文本中的字典。实际上,您可以以相同的方式转换输出标签,为每个类别提供输出向量的索引。
最终的管道将是这样的:
[input_text] --bag_of_word - > [input_vector] - 预测 - > [output_vector] --label_matchnig - > [标签]