首先是一点背景: Link to attachments
我有很多语音到文本应用程序生成的文本(老实说我不知道应用程序的名称,因为我没有物理访问权限,但我可以访问实时输出)。 我正在实时挖掘这些数据,输出文本看起来像第一个附件,有些部分非常干净,有些部分非常冗余。
我现在用Python编写了一个清理文本的软件(附件二)。问题是,我一次只能在很多文本上进行,例如。我的备份有几百兆字节的纯文本,当它实时出现时,很难处理几个字符串,因为半冗余持续15-25行(正如你在附件1中看到的那样)。
该软件适用于较大的文件,我现在正在尝试重写代码,以便它与实时输出一起使用。
但由于我是一名自学成才的程序员,我想知道是否有人可以分享他们的工作方式。
我的方法是(也见附件二,但我不擅长评论,所以我不知道你是否会从中得到很多):
- >关于#3的注意事项: 清理功能执行以下操作: *通过使用模糊字符串匹配,模糊模糊和删除重复或半重复行来比较行
*检查句子中的第一个单词是否与前一个句子中的最后一个单词相同,在这种情况下删除前一个句子中的最后一个单词 *更小的东西,使文字看起来干净。
我的问题是: 你会以完全不同的方式去做吗? 也许机器学习? 另一种语言可能更适合? 任何图书馆甚至软件都已经这样做了吗?
如果你确实阅读了我的代码,我也渴望了解我的错误,如果你看到我正在做的一些愚蠢的事情,那么批评(如果你想要抨击我,那就是严厉的批评)是非常受欢迎的。
非常感谢你的时间。