如果您要在python中使用NLTK对评论文本进行情绪分析,那将是要遵循的高级步骤。在NLTK中有很多术语,比如词干,词性等等,但我想知道处理文本的高级方法。
答案 0 :(得分:0)
这里是进行情绪分析的“标准”步骤(这实际上只是文本分类的一种形式),这是我的观点,基于我的经验,并非详尽无遗,但它会给你一些流行语以及作为深入研究出发点的基本流程:
希望这有帮助......文本分类有很多细微差别,因此上面的每一步都可以根据您的数据以及您想要从中获取的内容进行变异。
答案 1 :(得分:0)
要对评论文本(任何与此相关的文本)进行情感分析,我们需要首先提取特征。这取决于用户提取功能所需的级别。 达到这个目的的著名模型是“言语之袋”。
在高级文本处理上有一些步骤。
标记化:这是将文章缩短或拆分为较小形式的过程,可能是较小的段落或句子,单词或字母。
例如:您看起来很高兴。 →[[您”,“表情”,“非常”,“快乐”]
停用词:不对文章中的任何信息有所帮助的词称为停用词。这些主要是介词,冠词,连词等,
例如:书放在桌子上。停用词= ['is','on','the']
加词法:这是通过删除前缀和后缀来将单词词根化为词根形式的过程。
例如:慢→慢
通过这些方法处理了文本后,您可以计算出文本的情感了。尽管这些是处理文本的高级方法,但并非详尽无遗。 有很多可用的资源可能会建议您使用特征提取NLP中的更多方法。