我们扫描了数千个旧文档,并将关键数据输入数据库。其中一个字段是作者姓名。
我们需要搜索给定作者的文档,但确切的名称可能输入不正确,因为许多文档都是手写的。
我想过只搜索姓氏的前几个字母,然后提供一个供用户选择的列表。我不知道在这个阶段有多少不同的作者,我怀疑它将是数百而不是数十万。将有数十万份文件。 有没有更好的办法? SQL数据库会更好地处理它吗?
该软件是python,并且会有一个文档列表,每个文档都有一个作者。
答案 0 :(得分:0)
我认为您可以使用mongodb,您可以使用所有可能的作者名称设置列表字段。例如,你有手写名称“黑色”,你不能识别名称中的字母,例如“c”或“e”,你可以将原点名称设置为“黑色”并添加到可能的名称列表“blaek”
答案 1 :(得分:0)