应用错误收集

首先是一点背景： Link to attachments

我有很多语音到文本应用程序生成的文本（老实说我不知道应用程序的名称，因为我没有物理访问权限，但我可以访问实时输出）。我正在实时挖掘这些数据，输出文本看起来像第一个附件，有些部分非常干净，有些部分非常冗余。

我现在用Python编写了一个清理文本的软件（附件二）。问题是，我一次只能在很多文本上进行，例如。我的备份有几百兆字节的纯文本，当它实时出现时，很难处理几个字符串，因为半冗余持续15-25行（正如你在附件1中看到的那样）。

该软件适用于较大的文件，我现在正在尝试重写代码，以便它与实时输出一起使用。

但由于我是一名自学成才的程序员，我想知道是否有人可以分享他们的工作方式。

我的方法是（也见附件二，但我不擅长评论，所以我不知道你是否会从中得到很多）：

- ＆GT;关于＃3的注意事项：清理功能执行以下操作： *通过使用模糊字符串匹配，模糊模糊和删除重复或半重复行来比较行

*检查句子中的第一个单词是否与前一个句子中的最后一个单词相同，在这种情况下删除前一个句子中的最后一个单词 *更小的东西，使文字看起来干净。

我的问题是：你会以完全不同的方式去做吗？也许机器学习？另一种语言可能更适合？任何图书馆甚至软件都已经这样做了吗？

如果你确实阅读了我的代码，我也渴望了解我的错误，如果你看到我正在做的一些愚蠢的事情，那么批评（如果你想要抨击我，那就是严厉的批评）是非常受欢迎的。

非常感谢你的时间。