按性别分类Twitter文本

时间:2013-08-24 19:30:35

标签: twitter machine-learning classification

我有几百条推文可供我使用,我希望通过获取真实姓名并查看至少2条推文,将每个Twitter用户分类为男性和女性。我已经编程了从他们的个人资料中获取每个人的真实姓名,我现在正在寻找对他们的推文文本进行分类,以试图对用户是M还是F做出更强烈的肯定。我在网上搜索和搜索了文本示例分类但不太确定从哪里开始。我还在此链接Twitter Text With Gender Download.找到了一些非常有用的数据 任何有关如何将推文文本归类为男性或女性的建议都将非常感激!我有点像砖墙。

5 个答案:

答案 0 :(得分:6)

你需要一套训练,这是一个明显的陈述。没有其他办法。正如您在上一个问题Using Naive Bayes Classification to Identity a Twitter User's Gender中已经说明的那样,您可以手动创建它们,也可以在半监督的情况下创建它们,您可以使用外部规则(如真实姓名)创建训练集。

最简单的方法是使用现有的推文数据来训练您的分类器使用性别标签,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/

其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

答案 1 :(得分:5)

  

我没有任何其他由男性或女性撰写的SURE文本数据集,以帮助培训分类器。

这对你来说是一个障碍。您需要使用这样的数据集执行监督学习,例如使用感知器学习器;或者您需要执行无监督学习,例如k-means聚类,并尝试找到您可以(有点随意)声明为男性或女性信号的聚类。在无监督的方法中区分性别在实践中几乎是不可能的,至少没有其他现有的信息,先验或功能图可以构建。

答案 2 :(得分:2)

您可以查看我的python性别检测项目https://github.com/muatik/genderizer

它试图检测作者'性别的人看他们的名字和/或样本文本(例如推文)。

答案 3 :(得分:1)

您可能还想看看这个基于名字返回性别的REST API:http://www.thomas-bayer.com/restnames/

答案 4 :(得分:0)

genderComputer是@Bogdan Vasilescu的Python脚本,它试图从他们的名字(主要是名字)和位置(国家)推断出一个人的性别。该工具将来自different countries的信息与来自gender.can open source C program for name-based gender inference的小型,直播和数据的信息相结合。