在多标签分类Python中预处理数据

时间:2019-06-22 06:12:27

标签: python nlp multilabel-classification

我的数据集结构:

Text: 'Good service, nice view, location'
Tag: '{SERVICE#GENERAL, positive}, {HOTEL#GENERAL, positive}, {LOCATI
ON#GENERAL, positive}'

这里的要点是我不知道如何构造数据框架。如果您有任何建议,这些对我真的很好。谢谢。

1 个答案:

答案 0 :(得分:0)

从酒店属性(服务,视图,位置)中分离形容词(好,坏等)。您可以从创建自定义词典开始,并自动检测和利用新单词作为类别。您可以使用一些名称实体识别来做到这一点,这里有一些文章:

https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da https://towardsdatascience.com/a-review-of-named-entity-recognition-ner-using-automatic-summarization-of-resumes-5248a75de175

我个人使用过斯坦福大学,很酷