word2vec:以不区分大小写的方式查找类似的单词

时间:2014-03-31 08:55:16

标签: deep-learning word2vec

我可以访问我感兴趣的文本语料库中的单词向量。现在,我面临的问题是这些向量是区分大小写的,即例如“他”与“他”不同于“HIM”。

我想找到与“他”这个词最相似的词是一种不区分大小写的方式。我使用与google word2vec包捆绑在一起的distance.c程序。这是我遇到问题的地方。

我应该将“他是他”作为参数传递给distance.c可执行文件。这将返回发送的单词关闭到3个单词。

或者我应该分别使用3个参数(“他”和“他”和“HIM”)中的每一个运行distance.c程序,然后以合理的方式将这些列表放在一起以得到最相似的单词?请建议。

2 个答案:

答案 0 :(得分:0)

如果要以不区分大小写的方式查找相似的单词,则应将所有单词向量转换为小写或大写,然后运行已编译的distance.c版本。

使用标准shell工具很容易做到。

例如,如果原始数据位于名为input.txt的文件中,则以下内容适用于大多数类似Unix的shell。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt

答案 1 :(得分:0)

您可以将二进制格式转换为文本,然后根据需要进行操作。