Question

我正在编写一个使用CC-CEDICT的应用程序，这是一本CC许可的汉英词典。

字典仅作为zipped text file (4MB)提供，其条目格式如下：

Traditional Simplified [pin1 yin1] /English equivalent 1/equivalent 2/

这是样本数据：

是 是 [shi4] /is/are/am/yes/to be/
昰 是 [shi4] /variant of 是[shi4]/used in given names/
時 时 [Shi2] /surname Shi/
時 时 [shi2] /o'clock/time/when/hour/season/period/

我故意选择这些线来说明我的问题。数据没有可识别的密钥，通过该密钥可以识别单个单词。

英语定义可以改变，并且随着字典不断更新而做，但是在一次更新中假设时间改变的两个定义，所以下一个下载包含行：

時 时 [Shi2] /last name Shi/
時 时 [shi2] /o'clock/time period/when/hour/season/

我如何判断哪些记录已更新？当翻译是一个完全改变的单个词时，这一点非常明显。

我正在制定一个关于如何键入这本词典的策略。到目前为止，我最好的想法是将（简体，繁体）作为关键，并将重复项视为特殊情况 - 在他们自己的表中也许??

Answer 1

问题是透视问题。

您说您的记录没有密钥，但实际上 整个记录是密钥 - 假设您没有相同的重复记录。

因此没有更新 仅插入和删除。

您可以跟踪哪些记录已删除以及哪些记录已插入，以突出显示字典中的更改。

如果您确实想要将定义替换视为更新，那么您将不得不想出一个方案（a）为记录创建唯一键并且（b）允许您识别何时应将新定义列表视为对现有定义列表的修改。

部分（a）很简单，添加自己的代理键。这可能在所有定义中都是唯一的，或者只是跨越（简体，繁体）的组合。

（b）部分更难。在什么时候你说“姓氏”与“姓氏史”有关？我建议提出某种文本比较功能，产生一个数字分数。选择此分数的阈值，您将其称为更新而不是删除和插入。这将是任意的，但您可能会发现两个人可能不同意什么是更新，什么不是从一个案例到另一个案例。

Answer 2

这不是解决方案，但可能会为您（或其他人）提供一些想法。

如何将此建模为层次结构，Word-＆gt;含义 - ＆gt;翻译。计算转换的哈希值，将所有转换的哈希值相加并将其存储在相应的“含义”记录中，然后将所有含义的哈希值相加并将其存储在Word记录中。（是的，这是非规范化的）。

每次都必须重新计算文件中所有记录的所有哈希值。然后，您可以简单地将当前存储的“单词”哈希值与刚刚计算的哈希值进行比较。如果它们不同，就会发生变化。要么有新的含义，要么删除新的翻译或翻译，等等。然后，您可以完全删除该单词（级联）并重新插入新的“子树”。如果你想使事情变得复杂，你也可以进入层次结构并尝试确切地检测到改变了什么。

跟踪没有主键的数据更改

2 个答案: