这有点涉及,所以请和我在一起。
我正在开展一个“法院监视”项目,其中涉及要求志愿者与他们一起做表格,并指出在特定法庭的审判/听证会中发生了什么。
This is the form (redactions for privacy).
我们有数百名志愿者填写。现在,由于这些是手写文档,因此其他志愿者需要将它们转录到电子表格中。我们正在使用Google表单和志愿者来处理此问题。
但是,我们需要此数据的主键以及一种处理重复项的方法。
当两名志愿者坐在同一法庭上并在同一场听证会上填写不同的表格时,就会发生重复。我们希望在评估质量和完整性之前先捕获所有数据,因此我们不会遍历所有数据并丢弃重复项。
我们已经决定在这些扫描的PDF上创建和使用条形码系统。使用Reportlab,看来我可以以编程方式在这些OCR的PDF上生成条形码。
我需要的是一种处理重复项的方法。使用的条形码(或主键)应说明两个PDF是重复的事实。
例如,也许所得数据集的一部分看起来像这样:
+---------+---------+----------------+
| id | date | court |
+---------+---------+----------------+
| 45234-A | 7/24/18 | district court |
| 45234-B | 7/24/18 | district court |
| 45235 | 7/24/18 | superior court |
+---------+---------+----------------+
“ A”和“ B”告诉我,在同一天,同一听证会上有两种表格。
您将如何设计一个系统(伪代码很好),该系统基本上会根据某些东西是否重复来有条件地生成条形码?
我考虑过的解决方案:
也许,在扫描之前,我会顺序订购物理文档。我在这堆中一个接一个地重复。使用标签制作器,在重复的那些文件的右上角分别放置一个“ A”,“ B”,并把不重复的那些文件留为空白。然后扫描并OCR'd这些文件。然后,在Python中,我编写了一些代码,通过在PDF的右上方扫描字母“ A”,“ B”等来有条件地了解这些文档之一是否是重复的。如果是,则生成一个条形码并在其后附加“ A”,然后检查下一个文件。将“ B”附加到“ A”中的条形码上,并将其添加到第二个文件中。继续检查下一个文件,直到没有字母出现,然后移至下一个非重复文件。
如果要开始上述解决方案,则不确定如何使用Python检查PDF中的“ A”或“ B”。
感谢您的阅读!非常感谢您的帮助。
忍者编辑:我忘了提。使用这种系统的目的是允许分散的和分散的志愿者收集50份表格,进入Google表格页面,然后输入它们。创建条形码系统使我们能够核算表格并对其进行跟踪。