从哪里开始使用基本机器算法,例如文档识别和组织?

时间:2018-04-05 16:43:46

标签: machine-learning web-applications automation

如果这个问题不合适,请原谅。这是具体的,我不是要求实际的代码,而是更多的指导这个任务是否值得进行。如果不是这个地方,请关闭问题,并指出我正确的方向。

简短背景:我一直对修修补补感兴趣。我曾经在我年轻时玩过分区和OS X脚本,最终达到基本水平"通用编程"在父亲禁止我的电脑使用之前的能力。我现在要上法学院并在一家律师事务所工作,但我喜欢发展,我想在该领域实施更多的技术创新。

要点:在我们公司,从3月中旬到4月的第一周(移民+ H1B截止日期),我们每年都有一个繁忙的季节。我们收到了大量需要验证,组织和检查的文档和扫描文件。

我在我们的在线平台上添加(非常)简单的代码行以帮助组织;基本上,我将标签附加到所有传入的文档,一旦它们被验证,代码将按标签组织它们(例如"标识文档","工作经验文档"等等)。这将使我的生活每年都变得更加轻松,因为我最终在本赛季工作了100多个小时。

我想通过一种算法进一步采取这一步骤,该算法可以检查文档之间的签名和数据不匹配,并最终组织文档以便准备打印。最后,我想甚至可能实现机器学习和一个非常基本的神经网络来自动化整个麻烦和痛苦的过程......

实际问题:我只想知道继续或开始的最佳方式。我知道有相当数量的python和java,我们已经有一个在线平台上已有文档。您会在书籍,视频甚至课程方面推荐哪些其他资源?这种基本分类有名称吗?如果没有高级学位,我可以通过自己的努力建立这样的东西吗?

愚蠢和过度戏剧性的结局:说实话,我觉得自己的一部分感觉就像我在12岁时不去追求我所知道的那样浪费了我的生命。这是我的我猜想,如果我能做到这一点,那么也许我可以继续在法律和其他方面做到这一点......

1 个答案:

答案 0 :(得分:0)

你没有给出关于任务的许多细节,但如果你有数量形式的有限数量的形式作为图像,那么这似乎是非常可能的。

我亲自使用了OpenCV和Python,在过去的10年里,更复杂的机器学习任务变得越来越简单。

以对象检测为例(例如12)来检查签名字段中是否有任何内容或尝试从图像中提取日期(例如1,{{ 3}})。

我建议你从最简单的事情开始,改善你的工作。一个小而简单的任务将让您建立关于如何做事的知识。