Liblinear如何使用它

时间:2011-05-24 20:49:55

标签: ruby machine-learning classification text-mining

我在机器学习和文本挖掘方面相当新颖。我注意到了一个名为Liblinear https://github.com/tomz/liblinear-ruby-swig的红宝石库。

到目前为止,我想要做的是训练软件,以确定文本是否提及与自行车有关的任何内容。

有人可以突出我应该遵循的步骤(即:预处理文本和方式),共享资源,理想情况下分享一个简单的例子让我前进。

任何帮助都可以,谢谢!

1 个答案:

答案 0 :(得分:2)

经典方法是:

  1. 收集输入文本的代表性样本,每个样本都标记为相关/不相关。
  2. 将样本分为训练和测试集。
  3. 提取训练集所有文件中的所有条款;将此词汇称为 V
  4. 对于训练集中的每个文档,将其转换为布尔值向量,其中 i '元素为真/ 1如果 i '词汇发生在文档中。
  5. 将矢量化训练集输入学习算法。
  6. 现在,要对文档进行分类,请按照步骤4对其进行矢量化,然后将其提供给分类器以获取相关/不相关的标签。将其与实际标签进行比较,看它是否正确。使用这种简单的方法,您应该能够获得至少80%的准确度。

    要改进此方法,请使用术语计数替换布尔值,并按文档长度或更好的tf-idf分数进行标准化。