我正在使用R
和Python
并尝试在某种程度上学习基于文本的分析和NLP
。
问题:如何拆分下面这些句子混合的句子
Sentence =我喜欢我喜欢的系统应用程序我不喜欢正在遵循的过程。
我想把这句话分成
注意:我可以拆分下面的句子,因为它有.
来表示句子的结尾
句子=我喜欢这个应用程序。我喜欢这个系统。我不喜欢这个过程。
VJ
答案 0 :(得分:1)
我可以提出一种可以帮助你的方法,因为你没有句子分隔符,你可以按照以下步骤进行:
应用句法分析来提取段落的句法性质。
示例:我喜欢我喜欢的系统应用程序我不喜欢正在遵循的流程
将产生:PP VB DT NN ...
要提取句法分析,我建议使用Stanford Parser。
PP:人称代词VB:VerB
DT:DeTerminer
你可以看到一个句子有一个句法模式,可以用来将一个段落分成句子。
构建句子可能的句法树模型。通过说模型我的意思是包含句子句法构建的文件/数据库。
示例:模型可以包含以下行:
PP VB DT NN - > (我吃了一个苹果)
VB ADJ NN - > (创建新方法)
要构建模型,您可以分析许多句子(您的句子越大,您的系统就越准确)。您可以使用自己构建的corpus。
构建模型后,即可开始编写程序。算法的主要部分是:
1-接收输入段落(作为输入或文件)。
2-应用Stanford Parser生成段落的句法树。
3-根据段落部分与先前构建的句法树(您的句子模型 - >您的模式)的比较开始拆分段落
您需要使用句型来衡量段落的一部分的similarity。
我试图给你一个关于如何做你想做的事的想法/方法。
您可能需要使用NLTK(自然语言工具包)。