我想使用发布前可用的数据来预测电影总收藏,例如标题,演员,导演,工作室,评论家评级,流派等。我找到了一种方法来数字化量化大部分这些,但无法量化标题。标题传达了许多有用的信息,例如电影是续集,标题长度,相关情感等。如何从标题中定量提取这些信息?
答案 0 :(得分:0)
BoW是创建基于文本的功能的标准方法,虽然我不推荐它,因为电影标题很短,而且其中很多都包含脱离上下文的单词,命名实体..这将使你的特征向量更多稀疏
您可以为标题的每个单词创建一个word2vec编码,然后将标题的平均向量作为您的要素。我最喜欢的工具:gensim或Facebook fast Text