优化Web爬网程序的关键字权重

时间:2014-03-25 18:14:40

标签: machine-learning statistics modeling

我正在编写一个网络抓取工具来扫描一组特定的关键字,然后根据我为每个关键字分配的累积分数为其遇到的每个域分配一个全局分数(编程= 1,clojure = 2 ,javascript = -1等......)。

我已经在-10到10的滑动范围内设置了关键字评分,并且我根据自己的假设来确定我的初始值是关于什么是相关的和不相关的。

我觉得我的评分模型可能存在缺陷,我更愿意将符合我试图捕获的标准的域列表提供给分析工具,并根据某种统计分析优化我的关键字权重。

为“已知良好域名”列表生成最佳评分模型的适当分析技术是什么?这个问题是否适合贝叶斯学习,蒙特卡罗模拟或其他一些技术?

1 个答案:

答案 0 :(得分:1)

因此,给定一组相关且不相关的域的训练集,您需要构建一个模型,将新域分类为其中一个类别。我假设您将使用的功能是域中出现的术语,即可以将其定义为document classification问题。

一般来说,假设让基于统计的机器学习算法为你做“评分”比为关键词指定手动分数更好,你是正确的。

解决问题的一个简单方法是使用贝叶斯学习,具体而言,朴素贝叶斯可能是一个很好的选择。

从您手动标记的域生成数据集(例如从每个域收集多个页面并将每个页面视为文档)后,您可以使用其中一个机器学习框架(例如, WEKA

可以找到关于如何处理和加载文本文件到WEKA的入门书here。加载数据后,您可以使用框架来试验各种分类算法,例如: Naive Bayes,SVM等。一旦找到最适合您需求的方法,您就可以导出生成的模型并通过WEKA的Java API使用它。