应用错误收集

我正在考虑将AI（机器学习）作为一个爱好项目来概括YouTube视频的音频。

我能够将自动生成的隐藏式字幕文本提取为CLOB，如下所示：

好朋友，我认为我从未提起过，但我几乎所有订阅的内容都来自《彭博华尔街日报》晨星（Morningstar）和许多我不想提及的其他人宣传他们，因为大多数人不值得我花钱，但即使如果我从那里得到一点好处，那可是好事昨天收到的电子邮件当然是《华尔街日报》，我是订阅了他们的每日镜头，其中包含许多幻灯片经济市场中发生了什么，等等每天看

但是您可以看到它根本没有任何标点符号。我打算使用python NLTK库，但是Sentence Tokenizer无法将文本分成任何较小的块。

我是NLP的新手（您可以猜到），谁能给我指出一篇文章，最好是一篇指导如何“标点文字”的文章。我从Google搜索中获得的帮助不多（我不好）。

请提出前进的方向，谢谢。

没有NLTK / SpaCy软件包可以直接解决您的任务。

我建议使用this LREC论文中提到的三种深度学习方法之一（Che等，2016）。您必须将问题摆在分类任务上，在该任务中，您必须预测序列中的某个单词后是否带有标点符号。

本文本身采用序列<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>的子集来说明上下文，使用其词向量，并在三种不同的模型上进行训练，每种模型具有2、3或4个输出类（{{1 }}：没有标点符号，O：句号，分号，感叹号，PERIOD：逗号，破折号和冒号，COMMA：q标记）。

第一个模型使用简单的DNN，第二个模型使用CNN，第三个模型是第二个模型中CNN的变体。如果您选择只参加一段时间（减少课程数量），则据说简单的DNN模型提供的F1分数约为60％。

关于代码，您可以要求作者。或者，由于您希望将其作为一种爱好，因此您可以从头开始实施。

标点符号

1 个答案: