如何从单词序列中对句子和非句子类型进行分类?

时间:2016-12-16 13:03:01

标签: python machine-learning nlp

我有很多行,可以分为两类。

单词序列的类型:

  1. 这是一个有效的英文句子:

    Exp: - 作为一名承诺的软件工程师,已有超过5年的时间 微软技术和商业智能方面的经验 工具。

  2. 不是有效的英语句子(只是单词序列):
    示例:

    • 客户:PMP Auto Components

    • HTML,层叠样式表,Java脚本,JSP

    • 组织:萨蒂扬计算机服务有限公司,| ? |指定:软件工程师| ? |持续时间:03/2006 03 / 2010 | ? |
    • SLC - STC Merit Certified - 2006 Satyam Computer Services Ltd.
  3. 我正在使用python进行机器学习任务。我可以使用POS标签作为NLTK分类的功能。哪个算法可以应用于这个问题?

    更新:
    应该利用哪些特征来预测其句子是否不是?

1 个答案:

答案 0 :(得分:1)

你可以使用treetaggerwrapper: Reathedocs of TreetaggerWrapper

从文档中可以很容易地使用:

import pprint   # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查信号是否包含名词(标记NN),动词(标记VBZ)和正确的句子标点符号(标记SENT