文本分类 - 标签预处理

时间:2017-02-05 05:01:48

标签: python r nlp preprocessor text-classification

我有一个1M +的数据集,观察客户与呼叫中心的互动情况。该文本是接听电话的代表所写的自由文本。文本格式不正确,也不接近语法正确(很多简短)。没有任何自由文本在数据上有标签,因为我不知道要提供什么标签。

考虑到数据的大小,在确定要创建的标签时,随机抽样数据(为了给予高度置信度)是合理的第一步吗?是否有可能不必手动标记数据中的400多个随机观测值,或者没有其他方法可以预先处理数据以确定用于分类的一组好的标签?

感谢对此问题的任何帮助。

1 个答案:

答案 0 :(得分:1)

手动注释是一个不错的选择,因为您非常了解与您的标签相对应的理想文档。

但是,对于较大的数据集大小,我建议您将LDA与文档相匹配并查看生成的主题,这样您就可以很好地了解可用于文本分类的标签。

您还可以使用LDA进行文本分类,最终找出标签的代表性文档,然后通过相似性指标(比如余弦)找到与该文档最接近的文档。

或者,一旦你对标签有所了解,你也可以在没有使用LDA的任何人工干预的情况下分配它们,但是你将被限制在无人监督的学习中。

希望这有帮助!

P.S。 - 务必删除所有的停用词并使用词干分析器在预处理阶段将类似国王示例(管理,管理,管理)的词汇汇集在一起​​。