我希望获得一些帮助选择NLP策略以对日记条目进行分类的帮助。这是日记条目的外观和正确分类的示例。
“昨天,我的睡眠很糟糕。我感到非常疲倦,所以一天的工作效率不是很好。”
类别:“睡眠:糟糕”和“生产力:不是很好”
我有很多个人日记。人们将谈论他们已完成(或尝试完成)的事情以及它的工作方式(“好”,“坏”)。每个条目都会有多次尝试和评分,我需要正确匹配它们。
现在,我可以采用的一种方法是在Python中使用Spacy的匹配器,并提供一系列多字属性,例如
# Initialize the Matcher with the shared vocabulary
matcher = Matcher(nlp.vocab)
# Create a pattern matching two tokens: "iPhone" and "X"
pattern = [{'TEXT': 'not'}, {'TEXT': 'very'}, {'TEXT': 'good'}]
但是,问题是,即使我提出了一个新的评分和要素词典,我如何在上下文中将它们匹配,例如正确的属性/形容词/评分以及正确的要素(例如生产率或睡眠)。
我敢肯定有一种更有效的方法可以做到这一点,但我不确定。任何帮助都会很棒,请告诉我是否可以改善此问题。
答案 0 :(得分:0)
我会发表评论,但是我的声誉太低了,但这是NLP的一个非常有趣的应用。如果您的期刊已经有类别,那么我将研究一种机器学习方法。我最喜欢的文本分类工具是快速文本(https://fasttext.cc/docs/en/supervised-tutorial.html)
无论如何,祝你好运!