标点符号

时间:2018-10-26 00:42:57

标签: python nlp nltk

我正在考虑将AI(机器学习)作为一个爱好项目来概括YouTube视频的音频。

我能够将自动生成的隐藏式字幕文本提取为CLOB,如下所示:

  

好朋友,我认为我从未提起过,但我   几乎所有订阅的内容都来自《彭博华尔街日报》   晨星(Morningstar)和许多我不想提及的其他人   宣传他们,因为大多数人不值得我花钱,但即使   如果我从那里得到一点好处,那可是好事   昨天收到的电子邮件当然是《华尔街日报》,我是   订阅了他们的每日镜头,其中包含许多幻灯片   经济市场中发生了什么,等等   每天看

但是您可以看到它根本没有任何标点符号。 我打算使用python NLTK库,但是Sentence Tokenizer无法将文本分成任何较小的块。

我是NLP的新手(您可以猜到),谁能给我指出一篇文章,最好是一篇指导如何“标点文字”的文章。我从Google搜索中获得的帮助不多(我不好)。

请提出前进的方向,谢谢。

1 个答案:

答案 0 :(得分:2)

没有NLTK / SpaCy软件包可以直接解决您的任务。

我建议使用this LREC论文中提到的三种深度学习方法之一(Che等,2016)。您必须将问题摆在分类任务上,在该任务中,您必须预测序列中的某个单词后是否带有标点符号。

本文本身采用序列<w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>的子集来说明上下文,使用其词向量,并在三种不同的模型上进行训练,每种模型具有2、3或4个输出类({{1 }}:没有标点符号,O:句号,分号,感叹号,PERIOD:逗号,破折号和冒号,COMMA:q标记)。

第一个模型使用简单的DNN,第二个模型使用CNN,第三个模型是第二个模型中CNN的变体。如果您选择只参加一段时间(减少课程数量),则据说简单的DNN模型提供的F1分数约为60%。

关于代码,您可以要求作者。或者,由于您希望将其作为一种爱好,因此您可以从头开始实施。