编译器输出和其他系统错误消息的NLP

时间:2016-02-14 21:23:17

标签: python nlp nltk gensim

Hello堆栈溢出社区,

我遇到以下问题:我目前正在挖掘支持票据数据库,并希望使用例如Doc2Vec检查门票之间的相似性。但是,该文本包含由OS或编译器命令生成的大字符串。因此,将这些字符串用作模型中的单个单词并不聪明。这里的好习惯是什么?有没有人经历过类似的事情?

最佳

托尔斯滕

0 个答案:

没有答案