我有很多书名和他们的作者名单(没有ISBN号)。我想维护一个包含书籍唯一条目的列表,并删除每本书的重复条目。
我面临的问题是,不同的列表可能遵循不同的约定来存储书籍的条目。例如 - 列表可能将作者姓名存储在last name
first name
约定中,在另一个列表中,书本身的名称条目包含一些附加信息,如系列名称和序列号。
是否有任何标准算法来处理此类问题?我不想重新发明轮子。现在我正在使用php来编写解决方案。作为初学者,我尝试了levenshtein, soundex, metaphone, similar_text
,但他们中没有一个对我很有希望。
示例:考虑Inheritance Cycle的示例,该系列包含四本书。现在,该系列的第二本书的输入可以是Eldest
,Eldest: The Inheritance Cycle (Book 2)
,Eldest (Inheritance)
,Eldest (Inheritance Cycle)
,Inheritance 002: Eldest
。