应用错误收集

我正在搜索一些数据集，以评估两个单词之间的语义相似性度量算法。

对于单个单词的大小写，例如“ coast”和“ shore”，Rubenstein和Goodenough Dataset将是流行且可靠的数据集之一。

但是，我还需要可靠的数据集来测量复合单词（例如“ waterproof”和“ watercolor”）以及两个单词（例如“ black pen”和“ red Pencil”）之间的相似性。

有人知道适合他们的数据集，以评估计算机语言领域中的相似性度量算法吗？