如何将表情符号添加到Keras Tokenizer API?

时间:2018-12-26 05:59:23

标签: python twitter keras nlp sentiment-analysis

我正在做一个Twitter情绪分析项目。从一些文献中已经证明,使用表情符号和表情符号信息可以改善Twitter数据上情感分类器的性能(例如IBM Sentiment Expression via Emoticons on Social Media在2015年所做的工作)。此外,可以根据表情符号描述emoji2vec创建每个表情符号表示的emoji2vec项目emoji description对于Twitter情绪分析确实很有帮助。

现在,我正在使用Keras构建顺序模型来进行这种情感分类。但是我的问题是,在构造所有顺序模型之前,您应该先将文本数据传递给Tokenizer API:

`PASSWORD` varchar(255) CHARACTER SET utf8 COLLATE utf8_unicode_ci DEFAULT NULL,

其中tokenizer = Tokenizer(num_words= vocabulary_size) tokenizer.fit_on_texts(df['Phrase']) sequences = tokenizer.texts_to_sequences(df['Phrase']) data = pad_sequences(sequences, maxlen=50) 是我的熊猫数据框。因此,是否可以在Tokenizer中添加表情符号(因为Tokenizer API首先选择了最常见的前df个单词并构造了单词索引对)?表情符号显然不如单词频繁,它们是情感分类中的重要特征。因此,我想将表情符号添加到keras Tokenizer API中,并创建表情符号的表情符号索引对。

关于模型,我正在构建具有预先训练的嵌入(例如,由FastText训练)的BiLSTM模型。如何在此任务中结合表情符号表示和单词表示?以下代码显示了我的BiLSTM模型:

vocabulary size

任何帮助和见解将不胜感激!谢谢!圣诞快乐!

0 个答案:

没有答案