weka - 博客作者的性别分类

时间：2014-01-16 05:36:10

标签： weka blogger svm text-mining

我正在研究博客作者的性别分类。我正在使用Weka进行分类。分类器是SVM和朴素贝叶斯分类器，但我的准确度在50％到60％之间现在我怀疑我的功能集。我使用的功能是POStags，以ale，ably等结尾的单词，博客文字，词干等。我正在引用这篇论文

改善博客作者的性别分类

有没有人知道更好的功能集会是什么？

答案 0 :(得分：1)

作为一个开放的研究问题，我强烈建议您检查“evaluation labs on uncovering plagiarism, authorship, and social software misuse”中使用的功能集，PAN系列，其中包含有关作者分析主题：年龄和性别的数据集和许多论文。

答案 1 :(得分：0)

很早以前，我已经解决了相同的问题，所以我可以得出这样的结论：复制论文的结果有点累。通过可变长度POS挖掘算法获得的20,000个（约）POS序列相当不整齐，是不可重复性的主要因素。同样，鉴于其数据集的大小（约3,000个博客帖子），准确度达到88％听起来很违反直觉。

也许，更大的语料库（例如Blog authorship语料库）可能有助于阐明功能的泛化能力。