TEXT - 如何将一个段落分成更小的句子(没有句子结尾的迹象)

时间:2017-09-06 07:28:59

标签: python text analytics text-analysis

我正在使用RPython并尝试在某种程度上学习基于文本的分析和NLP

问题:如何拆分下面这些句子混合的句子

Sentence =我喜欢我喜欢的系统应用程序我不喜欢正在遵循的过程。

我想把这句话分成

  1. 我喜欢这个应用程序
  2. 我喜欢这个系统
  3. 我不喜欢正在遵循的流程
  4. 注意:我可以拆分下面的句子,因为它有.来表示句子的结尾

    句子=我喜欢这个应用程序。我喜欢这个系统。我不喜欢这个过程。

    VJ

1 个答案:

答案 0 :(得分:1)

我可以提出一种可以帮助你的方法,因为你没有句子分隔符,你可以按照以下步骤进行:

  • 应用句法分析来提取段落的句法性质。

    示例:我喜欢我喜欢的系统应用程序我不喜欢正在遵循的流程

    将产生:PP VB DT NN ...

    要提取句法分析,我建议使用Stanford Parser

    PP:人称代词

    VB:VerB

    DT:DeTerminer

    NN:NouN

    你可以看到一个句子有一个句法模式,可以用来将一个段落分成句子。

  • 构建句子可能的句法树模型。通过说模型我的意思是包含句子句法构建的文件/数据库。

    示例:模型可以包含以下行:

    PP VB DT NN - > (我吃了一个苹果)

    VB ADJ NN - > (创建新方法)

    要构建模型,您可以分析许多句子(您的句子越大,您的系统就越准确)。您可以使用自己构建的corpus

  • 构建模型后,即可开始编写程序。算法的主要部分是:

    1-接收输入段落(作为输入或文件)。

    2-应用Stanford Parser生成段落的句法树。

    3-根据段落部分与先前构建的句法树(您的句子模型 - >您的模式)的比较开始拆分段落

    您需要使用句型来衡量段落的一部分的similarity

我试图给你一个关于如何做你想做的事的想法/方法。

您可能需要使用NLTK(自然语言工具包)。