应用错误收集

我有很多书名和他们的作者名单（没有ISBN号）。我想维护一个包含书籍唯一条目的列表，并删除每本书的重复条目。

我面临的问题是，不同的列表可能遵循不同的约定来存储书籍的条目。例如 - 列表可能将作者姓名存储在last name first name约定中，在另一个列表中，书本身的名称条目包含一些附加信息，如系列名称和序列号。

是否有任何标准算法来处理此类问题？我不想重新发明轮子。现在我正在使用php来编写解决方案。作为初学者，我尝试了levenshtein, soundex, metaphone, similar_text，但他们中没有一个对我很有希望。

示例：考虑Inheritance Cycle的示例，该系列包含四本书。现在，该系列的第二本书的输入可以是Eldest，Eldest: The Inheritance Cycle (Book 2)，Eldest (Inheritance)，Eldest (Inheritance Cycle)，Inheritance 002: Eldest。

寻找重复的书籍

1 个答案: