有什么好的资源可用于实施问号分析器?
我正在尝试弄清楚如何自动标记问题,以便非技术用户更容易提问。我发现使用贝叶斯定理我可以实现这一点,但我不知道如何实现它。
关于此的任何开源图书馆或研究论文?
答案 0 :(得分:3)
Naive Bayes概率分类器通常用于文本分类。基本思想是使用单词和类别的联合概率来估计给定文档的类别的概率。这种模型的天真部分是单词独立性的假设。这种假设的简单性使得朴素贝叶斯分类器的计算远比非朴素贝叶斯方法的指数复杂度更有效,因为它不使用单词组合作为预测器。 如果任务是将测试文档分类为单个类,则选择具有最高后验概率的类。
这是一个参考: [1] Tom Mitchell,“机器学习”,McGraw-Hill,1997年。(第6.10节)
如果您将每个问题类别视为文本类型,则可以使用文本分类。
Naive Bayes分类器基于贝叶斯定理,您可以假设所有特征(或属性)都是独立的。
这很容易实现。您可以找到许多带有实现的软件包。 e1071 R中的Package实现了它。以下是R中使用朴素贝叶斯分类器的示例代码:
N <- nrow(data)
Ntrain <- round(N*0.7)
data <- data[sample(1:N),]
train <- data[1:Ntrain,]
test <- data[(Ntrain+1):N,]
y<-as.factor(train[,13])
x<-train[,3:12]
y_test <- as.factor(test[,13])
x_test <- test[,3:12]
library(e1071)
m <- naiveBayes(x, y)
pred_test <- predict(m,x_test, type = "class")
pred <- predict(m,x, type = "class")
答案 1 :(得分:1)
您的算法必须维护一个表(或类似的东西)
Word Category
-------------------------------------
algo algorithm
design algorithm
...
...
libraries library
open open-source
open-source open-source
paper research-paper
research research-paper
source source-code
...
根据此表分析语句时(忽略填充词后)
1. "Any open source libraries or research papers on this?"
2. open source libraries research papers
3.
open open-source
source source-code
open-source open-source
libraries library
research research-paper
paper research-paper
research-paper research-paper
4. by a simple majority, (you can also use a more complex algorithm here,
like assigning weights to the Categories)
selected category = research paper
当您继续使用所选算法进行学习时,您的表会不断更新,并且您会不断获得更好的结果。