我想在Airbnb中分析客人的评论文本和主持人的评论文本。
我有一对文本数据(来宾和主持人)。
ex)
guest1 review with host1 comment
guest2 review with host1 comment
guest3 review with host2 comment
guest2 review with host2 comment
guest4 review with host3 comment
然后,我希望看到每对段落的相似性或一致性。
我是否需要提取每个句子中的主题词?
哪种文本挖掘算法可以帮助我?
LDA可以显示每个段落的主题吗? (不是全文数据)
答案 0 :(得分:0)
有很多方法。尝试Shingling句子到K-Shingle:http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html 或者在维基百科中查看:https://en.wikipedia.org/wiki/W-shingling ,你可以找到两个句子的带状疱疹之间的jaccard相似性
另请查看将每个句子映射到矢量的Bag Of Words模型,您可以通过每个匹配单词的点积轻松地精确两个矢量(两个句子)之间的相似性:https://en.wikipedia.org/wiki/Bag-of-words_model