我正在考虑将AI(机器学习)作为一个爱好项目来概括YouTube视频的音频。
我能够将自动生成的隐藏式字幕文本提取为CLOB,如下所示:
好朋友,我认为我从未提起过,但我 几乎所有订阅的内容都来自《彭博华尔街日报》 晨星(Morningstar)和许多我不想提及的其他人 宣传他们,因为大多数人不值得我花钱,但即使 如果我从那里得到一点好处,那可是好事 昨天收到的电子邮件当然是《华尔街日报》,我是 订阅了他们的每日镜头,其中包含许多幻灯片 经济市场中发生了什么,等等 每天看
但是您可以看到它根本没有任何标点符号。 我打算使用python NLTK库,但是Sentence Tokenizer无法将文本分成任何较小的块。
我是NLP的新手(您可以猜到),谁能给我指出一篇文章,最好是一篇指导如何“标点文字”的文章。我从Google搜索中获得的帮助不多(我不好)。
请提出前进的方向,谢谢。
答案 0 :(得分:2)
没有NLTK / SpaCy软件包可以直接解决您的任务。
我建议使用this LREC论文中提到的三种深度学习方法之一(Che等,2016)。您必须将问题摆在分类任务上,在该任务中,您必须预测序列中的某个单词后是否带有标点符号。
本文本身采用序列<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>
的子集来说明上下文,使用其词向量,并在三种不同的模型上进行训练,每种模型具有2、3或4个输出类({{1 }}:没有标点符号,O
:句号,分号,感叹号,PERIOD
:逗号,破折号和冒号,COMMA
:q标记)。
第一个模型使用简单的DNN,第二个模型使用CNN,第三个模型是第二个模型中CNN的变体。如果您选择只参加一段时间(减少课程数量),则据说简单的DNN模型提供的F1分数约为60%。
关于代码,您可以要求作者。或者,由于您希望将其作为一种爱好,因此您可以从头开始实施。