使用doc2vec的无监督情绪分析

时间:2018-11-09 20:32:30

标签: nlp gensim word2vec sentiment-analysis doc2vec

伙计,

我在Google上搜索了不同类型的论文/博客/教程等,但没有发现任何有用的信息。如果有人可以帮助我,我将不胜感激。 请注意,我并不是逐步要求代码,而是提出想法/博客/论文或一些教程。

这是我的问题陈述:

  

就像情感分析一样,可以用来识别积极的和   否定句,我想找出一个句子是否   是否具有前瞻性(未来展望)声明。

我不想使用词袋方法来总结诸如“往前走” ,“ 在不久的将来”之类的前瞻性词/短语的数量“或“ 从现在起5年后”等。我不确定是否可以使用word2vec或doc2vec。请赐教。

谢谢。

1 个答案:

答案 0 :(得分:0)

您似乎感兴趣的是在文本中找到时间陈述。

不确定最终的输出,但是假设您要查找包含它们的时态短语或句子。

一种方法可能如下:

  1. 创建时间术语列表[天,年,月,现在,以后]
  2. 仅选择具有关键术语的句子
  3. 在doc2vec模型中使用句子
  4. 推断向量并对新句子使用距离度量
    • GMM群集+限制
    • 与平均距离的距离

另一种方法可能是:

  1. 创建时间术语列表[天,年,月,现在,以后]
  2. 进行Bigram和Trigram搭配提取
  3. 用时间术语保持相关搭配
  4. 以一种bag-of-collocations方法使用相关搭配
    • 相关搭配的匹配二进制特征向量
    • 训练分类器以识别更高级别的文本

如果您有大量文本,这对于引导方法来说似乎是个好例子。

由于确实需要查找初始时态术语,所以两者都是半监督的,但即使使用word2vec方案并进行自举,也可以自动实现