如果你检查我的github,我已经成功实施了CNN,KNN来分类信号故障。为此,我采用了几乎没有预处理的信号来降低维数,并使用我训练网络的类信息将其提供给网络,之后训练的网络使用测试样本进行测试以确定类并计算准确度。
我的问题是如何将文本信息输入CNN或任何其他网络。对于输入,我从kaggle中获取了Twitter数据库,我选择了2个具有名称和性别信息的列。我已经完成了一些根据博客数据对性别进行分类的算法。我不清楚我如何实现我的数据(在我的情况下,如果我只想仅使用名称进行分类)。
在一些例子中,据我所知,我看到了为文本计算稀疏矩阵,但对于20,000个样本,稀疏矩阵很大,可作为输入。我在实现CNN架构方面没有问题(我想实现,因为不需要任何功能)或任何其他网络。我被困在这里,如何将数据输入网络。我可以通过什么样的对话来获取姓名和性别信息来培训网络?
如果我的思维方法有误,请告诉我哪种算法是最好的方法。深度学习或任何其他方法都可以!
答案 0 :(得分:2)
你可以使用字符级嵌入(即你的输入类是不同的字符,所以'a'是1级,'b'是2级等等。)。对这些类进行单热编码然后将它们传递给嵌入层将为每个字符生成唯一的表示。然后可以将字符串视为字符序列(或同样的矢量序列),它可以用作循环网络或卷积网络的输入。如果您想阅读,请参阅Kim等人的paper。将为您提供所有必要的理论支柱。