如何创建一个功能,以不同语言检测文本中的年龄?

时间:2015-03-25 17:59:47

标签: machine-learning nlp artificial-intelligence text-mining

我有几种语言的文本分类任务。如果我想创建一个从文本中提取年龄的功能,如果这是可能的类:18-2425-3435-4950-xx"我应该使用什么方法只有推文作为语料库。我已经准备好尝试使用所有的推文,但性能非常低(0.66)任何关于如何完成这项任务的想法?提前谢谢。

1 个答案:

答案 0 :(得分:3)

由于它仍然是一项研究任务,我建议几个链接到科学论文(链接和以下摘要主要来自our paper的'相关工作'部分 - 不幸的是,俄语,所以我编辑了谷歌翻译一点点。

所以,看看这些作品(标有年份):20092010201120132014

总结:您应该找到或创建标记语料库并使用具有以下功能的监督机器学习:

  1. 文字特征:n-gram超过单词和字符,
  2. 风格特征:词性,俚语,平均句子长度,标点符号,首字母缩略词,表情符号等。
  3. 社交网络功能:用户的朋友数量,用户页面上显示的帖子数量,帖子总数,用户帖子的平均评论数量。