将文档分为

时间:2017-11-19 05:12:12

标签: python nltk text-mining information-extraction

我有从Apache tika处理的数据,所以我有计划文本,我想要做的是将每个部分保存在不同的数组中,我在识别这些部分时遇到了麻烦。

显示带有项目符号的不同部分

恢复

  •   

    姓名

         

    位置,城市

         

    电话:*********

         

    电子邮件:myemail @ email。

  •   

    目标

         

    文本

  •   

    教育和资格
      •文本 - 位置,国家/地区

  •   

    技能

         

    •技能

我期待任何可以帮助我找到与此相关的内容,例如任何图书馆,更好的搜索词。我正在使用python并使用库nltk,spacy,tika

与问题无关(我的理解中很少有相关问题(没有回答)这将是非常困难的并且使其工作变得不简单所以我只是在寻找提示更好的方向。)

0 个答案:

没有答案