有人可以帮我解决下面给出的问题:
我们有一栏'评论'在不同产品的SFrame中。我想创建一个word_count列,它应该只计算一组给定的单词而不是所有单词的出现次数。
或者,即使我们使用评论中的所有单词创建单词计数,我们仍然可以对结果字典进行子集化,这将给出一个新的字典列,其中只有选定的单词作为字典的键和相应的值。
例如,如果selected_words = [' Good',#39; Awesome'],结果应该派生出word_count = {' Good':1,'真棒':1}如下:
答案 0 :(得分:0)
根据我的说法,你需要一些情感分析来区分正面和负面的评论。你必须创建包含所有好词和坏词的列。如果评论不包含该词,则将字数统计为0,否则存储计数。此问题类似于将邮件区分为垃圾邮件或非垃圾邮件。为了获得高精度的模态,你需要创造性的功能,如词干等。你需要训练你的模型以获得大量的功能。
用于预处理,如果你想用较少复杂的方法实现最好的方法是为每个特征词创建哈希表,并且如果哈希定义则通过句子和匹配每个词的哈希值然后增加它,否则保留它。然后保存表中的所有功能哈希值。为所有评论做这件事。