将文本数据集转换为数值数据集

时间:2015-06-02 15:48:46

标签: matlab nlp classification

请问关于转换数据集的问题。我有2个数据集,一个用于培训,另一个用于测试。两者都包含关于句子中单词的文本和数字的混合特征。例如(索引,标签,pos,..等)。

这是其中一个数据集(.csv格式)中的实例示例:

1,点,6,1279,1284,点,NN,汇合,NN,将,MD,地图:: NNS :: DT汇合:: NN,NNS_DT DT_NN NNS_DT_NN,将:: MD拥有:: VB to :: TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE

我想要做的是在Matlab中使用神经网络训练这些数据集,并从中提取深层特征。问题是Matlab只处理数值数据集。另外,我在java中使用了一些分类器,它们只使用数字而不是文本。

任何人都有建议请如何训练此类数据集?或者如何将其转换为关于数字特征的数值格式?

先谢谢,

1 个答案:

答案 0 :(得分:0)

通过使用函数double()强制转换变量,您将得到一个包含相应代码编号的所有字母的数组。

例如double('MA1LAB')将输出

ans =

77    65    49    76    65    66

然后,您可以使用相应的代码处理每个字母。

请注意,每个字母都有一个代码,因此1279将被处理为4个字符。