用于在python上下文中对多个多词短语进行分类的NLP策略

时间:2019-12-09 23:57:15

标签: python machine-learning nlp

我希望获得一些帮助选择NLP策略以对日记条目进行分类的帮助。这是日记条目的外观和正确分类的示例。

“昨天,我的睡眠很糟糕。我感到非常疲倦,所以一天的工作效率不是很好。”

类别:“睡眠:糟糕”和“生产力:不是很好”

我有很多个人日记。人们将谈论他们已完成(或尝试完成)的事情以及它的工作方式(“好”,“坏”)。每个条目都会有多次尝试和评分,我需要正确匹配它们。

现在,我可以采用的一种方法是在Python中使用Spacy的匹配器,并提供一系列多字属性,例如

# Initialize the Matcher with the shared vocabulary
matcher = Matcher(nlp.vocab)

# Create a pattern matching two tokens: "iPhone" and "X"
pattern = [{'TEXT': 'not'}, {'TEXT': 'very'}, {'TEXT': 'good'}]

但是,问题是,即使我提出了一个新的评分和要素词典,我如何在上下文中将它们匹配,例如正确的属性/形容词/评分以及正确的要素(例如生产率或睡眠)。

我敢肯定有一种更有效的方法可以做到这一点,但我不确定。任何帮助都会很棒,请告诉我是否可以改善此问题。

1 个答案:

答案 0 :(得分:0)

我会发表评论,但是我的声誉太低了,但这是NLP的一个非常有趣的应用。如果您的期刊已经有类别,那么我将研究一种机器学习方法。我最喜欢的文本分类工具是快速文本(https://fasttext.cc/docs/en/supervised-tutorial.html

无论如何,祝你好运!