应用错误收集

时间：2011-05-24 20:49:55

标签： ruby machine-learning classification text-mining

我在机器学习和文本挖掘方面相当新颖。我注意到了一个名为Liblinear https://github.com/tomz/liblinear-ruby-swig的红宝石库。

到目前为止，我想要做的是训练软件，以确定文本是否提及与自行车有关的任何内容。

有人可以突出我应该遵循的步骤（即：预处理文本和方式），共享资源，理想情况下分享一个简单的例子让我前进。

任何帮助都可以，谢谢！

答案 0 :(得分：2)

经典方法是：

现在，要对文档进行分类，请按照步骤4对其进行矢量化，然后将其提供给分类器以获取相关/不相关的标签。将其与实际标签进行比较，看它是否正确。使用这种简单的方法，您应该能够获得至少80％的准确度。

要改进此方法，请使用术语计数替换布尔值，并按文档长度或更好的tf-idf分数进行标准化。