我正在尝试从团购网站创建一个数据提取器算法来构建交易的agregator。首先,我需要一个能够提取标题,价格,折扣,图像,坐标的算法。
我有图像,折扣和坐标的解决方案但是对于标题和类别识别我需要创建一个朴素的贝叶斯算法。什么是最好的语言:php?蟒蛇? JS?的node.js?
创建算法需要什么?
带有示例的模型? 我给出100个标题,然后从一些网站提供所有网页内容,并且脚本可以识别哪个句子是标题?
所以我不需要一个字。我需要一个句子,那个句子有时是<h1> - <h2>
,有些则是其他句子。
答案 0 :(得分:0)
我真的无法理解你的帖子,但是由于天真的贝叶斯是SO上非常普遍要求的东西,我创建了一段简单的代码,可以在python中使用而无需任何额外的库(如NLTK)(也是比NLTK更快的训练方式)。你可以找到它here。
答案 1 :(得分:0)
如果您对AI算法没有任何经验,并且想要添加一些可以学习的算法我建议你应该使用谷歌预测API: