如何使用keras RNN进行数据集中的文本分类?

时间:2016-12-25 15:08:48

标签: python theano keras recurrent-neural-network

我使用keras对ANN分类器进行编码,现在我正在学习自己在keras中编码RNN以进行文本和时间序列预测。在网上搜索了一段时间后,我发现了Jason Brownlee的这个tutorial,这对于RNN的新手学习者来说是不错的。原始文章使用IMDb数据集进行LSTM文本分类,但由于数据集大小较大,我将其更改为小型短信垃圾邮件检测数据集。

<application android:name='.SFBDemoApplication" >

我已成功将数据集处理为训练和测试集,但现在我应该如何为此数据集建立RNN模型?

2 个答案:

答案 0 :(得分:2)

在训练神经网络模型之前,您需要将raw text数据表示为numeric vector。为此,您可以使用CountVectorizer提供的TfidfVectorizerscikit-learn。从原始文本格式转换为数字矢量表示后,您可以训练RNN / LSTM / CNN进行文本分类问题。

答案 1 :(得分:-1)

如果您仍然坚持这一点,check out this example by Jason Brownlee。看起来你大部分都在那里。您需要添加LSTM图层和Dense图层以获取应该有效的模型。