用于确定抓取内容的类别的算法

时间:2016-09-16 13:54:52

标签: algorithm

我正在使用食谱抓取几个网站,我真的不想尝试创建某种将食谱分成不同类别的算法。我猜不可能完全完美,但最佳做法是什么。我是否首先在数据库中创建静态类别,然后创建另一个包含静态关键字的表,这些关键字具有类别的外键,然后检查已删除的文本,如果它包含其中一个关键字,或者什么是正确的方法? / p>

2 个答案:

答案 0 :(得分:1)

在我看来,您正在寻找的是一种分类算法,它通过预定义的配方或食谱属性来定义类(读取类别)。

你可以实现这一点的方法是创建一个大词典,这些词汇存在于所有食谱的指南,食谱甚至标题中。然后定义静态的类别数量(此方法不适用于可变数量的类别)并定义字典中每个单词预测包含该单词属于该类别的配方的数量。

你可以这样做,让我们说100个食谱手动告诉算法它们属于哪个类别,这样你的算法就会创建这些食谱所具有的单词的权重(例如含有单词&#34的沙漠食谱;水果"将增加一个未来的食谱,其中包含“"水果"被归类为沙漠食谱的机会。”

然后当您的算法针对这100个配方进行校准时(显然数字100可能更大或更小,虽然通常更大)您可以通过在算法中插入已知的配方来测试算法,并查看算法获得的频率对的。您可以通过让算法从他的结果中学习来升级算法,但只要您对算法的准确性感到满意,就应该没问题。

答案 1 :(得分:0)

首先定义“类别”的含义。而不是考虑如何检测它们,例如

  • 文字中的关键字
  • 成分。

如果您还不确定,请尝试一些组合并查看结果。你也可以在它上面输入AI算法,例如训练神经网络来检测类别。