如何修改word2vec代码以构建用于制表符分隔的短语序列的嵌入?

时间:2017-08-23 06:28:09

标签: c text-parsing word2vec

给出带有如下行的文本文件:

Phrase foo\tPhrase bla\tPhrase blabla\t...
Phrase bar\tPhrase blabla\tPhrase blablabla\t...

其中每个文本行是制表符分隔的短语序列,可以包含space和其他特殊字符。我们感兴趣的是在短语级别嵌入,而不是单词级别。

当前word2vec.c支持" space"," tab"," new line"作为分隔符。如何禁用"空间"并且仅启用" tab"和"新线"在这种情况下,作为word2vec.c中的分隔符?

我从Tomas Mikolov获得了word2vec.c GitHub

1 个答案:

答案 0 :(得分:1)

enter image description here行定义了word2vec.c中的分隔符;如果你正在编译该文件,你可以编辑该行&重新编译以使其行为不同。

但是,如果您只是预处理文本以将其转换为预期形式,那么它会更容易,更强大(如果实际上您正在使用其他一些word2vec实现)。例如,您可以将所有空格' '更改为下划线'_'(或其他一些插件字符,如果任何原始下划线对于保持清晰是重要的)。

稍后解释结果时,请记住在查找时应用相同的空格到下划线变换,或者通过用空格替换下划线来反转它以显示结果。