我正在使用Matlab中的nntool开发一个神经训练网络,我输入了11250个不同长度的文本文件(从10到500个单词,或者如果我消除多余的单词,可以说10到200个单词),我没有'找到一种很好的方法来将这些输入文本表示为数字数据来运行我的训练算法。 我想创建一个单词词汇表,但我发现词汇表包含16000个不同的单词,这些单词很大。某些文本文件之间存在一些共同点。
答案 0 :(得分:0)
为了快速溶解,你应该寻找“一袋字”或“tfidf”。如果你不知道这是什么,你应该从这里开始:https://en.wikipedia.org/wiki/Vector_space_model或https://en.wikipedia.org/wiki/Document_classification。
你读过任何关于NLP的书吗?也许这个可能很有价值:http://www.nltk.org/book/一开始。