Question

我有很多行，可以分为两类。

单词序列的类型：

这是一个有效的英文句子：

Exp： - 作为一名承诺的软件工程师，已有超过5年的时间微软技术和商业智能方面的经验工具。
不是有效的英语句子（只是单词序列）：
示例：
- 客户：PMP Auto Components
- HTML，层叠样式表，Java脚本，JSP
- 组织：萨蒂扬计算机服务有限公司，| ？ |指定：软件工程师| ？ |持续时间：03/2006 03 / 2010 | ？ |
- SLC - STC Merit Certified - 2006 Satyam Computer Services Ltd.

我正在使用python进行机器学习任务。我可以使用POS标签作为NLTK分类的功能。哪个算法可以应用于这个问题？

更新：
应该利用哪些特征来预测其句子是否不是？

Answer 1

你可以使用treetaggerwrapper： Reathedocs of TreetaggerWrapper

从文档中可以很容易地使用：

import pprint   # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查信号是否包含名词（标记NN），动词（标记VBZ）和正确的句子标点符号（标记SENT）

如何从单词序列中对句子和非句子类型进行分类？

1 个答案: