我有一个数据集,包括酒店评论,评分和其他功能,例如旅行者类型和评论字数。我想执行主题建模(LDA),并使用从评论以及其他功能中得出的主题来确定对评分影响最大的功能(评分为因变量)。
如果我想使用线性回归来做到这一点,这是否意味着我必须用衍生的主题来标记每个评论?有没有办法在R中做到这一点,还是我必须手动标记每个评论? (我是文本挖掘和数据科学的新手。)
答案 0 :(得分:1)
简短的答案:您不必在每个评论中都标有派生的主题,因为您将依靠训练的主题模型来确定评论的主题,然后将其用于构建您的功能回归模型。
使用代码示例(在R中)对主题建模有很好的解释,
www.tidytextmining.com/topicmodeling.html。 6.2.1
和6.2.2
部分应帮助您快速入门。
牢记以下两个原则
针对每条评论对主题模型进行培训之后,
一个简化的示例:可能有4个主题广泛地属于评论。
文档主题的概率与每个主题的最高术语结合在一起,可以用作类似于以下内容的功能:
topic_1_location_probability
topic_2_hotel_staff_probability
topic_3_hotel_room_probability
topic_4_hotel_amenities_probability
is_convenient_location
is_train_station_nearby
is_walk_distance
is_clean
is_late_checkout
is_fitness_centre
获取新评论:
希望对您有帮助。