我正在研究博客作者的性别分类。我正在使用Weka进行分类。分类器是SVM和朴素贝叶斯分类器,但我的准确度在50%到60%之间 现在我怀疑我的功能集。我使用的功能是POStags,以ale,ably等结尾的单词,博客文字,词干等。 我正在引用这篇论文
改善博客作者的性别分类
有没有人知道更好的功能集会是什么?
答案 0 :(得分:1)
作为一个开放的研究问题,我强烈建议您检查“evaluation labs on uncovering plagiarism, authorship, and social software misuse”中使用的功能集,PAN系列,其中包含有关作者分析主题:年龄和性别的数据集和许多论文。
您可以找到the datasets used in 2013 runs和descriptions of the approaches used by several research groups。
答案 1 :(得分:0)
很早以前,我已经解决了相同的问题,所以我可以得出这样的结论:复制论文的结果有点累。通过可变长度POS挖掘算法获得的20,000个(约)POS序列相当不整齐,是不可重复性的主要因素。同样,鉴于其数据集的大小(约3,000个博客帖子),准确度达到88%听起来很违反直觉。
也许,更大的语料库(例如Blog authorship语料库)可能有助于阐明功能的泛化能力。