标签: bash tokenize word2vec
我打算为命令行创建Word2vec嵌入。要创建Word2vec,我需要标记命令行。有什么建议可能是标记命令行的最佳方法?
许多现有标记器使用空格或我们提到的任何定界符,例如(,。)。但是想检查任何更好的令牌生成器,因为这些分隔符不适用于示例情况
/bin/bash -l -c docker rmi $(docker images | awk '{print $3}'); true