我正在搜索一些数据集,以评估两个单词之间的语义相似性度量算法。
对于单个单词的大小写,例如“ coast”和“ shore”,Rubenstein和Goodenough Dataset将是流行且可靠的数据集之一。
Rubenstein和Goodenough数据集: https://dl.acm.org/citation.cfm?id=365657
但是,我还需要可靠的数据集来测量复合单词(例如“ waterproof”和“ watercolor”)以及两个单词(例如“ black pen”和“ red Pencil”)之间的相似性。
有人知道适合他们的数据集,以评估计算机语言领域中的相似性度量算法吗?