我有很多行,可以分为两类。
单词序列的类型:
这是一个有效的英文句子:
Exp: - 作为一名承诺的软件工程师,已有超过5年的时间 微软技术和商业智能方面的经验 工具。
不是有效的英语句子(只是单词序列):
示例:
客户:PMP Auto Components
HTML,层叠样式表,Java脚本,JSP
我正在使用python进行机器学习任务。我可以使用POS标签作为NLTK分类的功能。哪个算法可以应用于这个问题?
更新:
应该利用哪些特征来预测其句子是否不是?
答案 0 :(得分:1)
你可以使用treetaggerwrapper: Reathedocs of TreetaggerWrapper
从文档中可以很容易地使用:
import pprint # For proper print of sequences.
import treetaggerwrapper
#1) build a TreeTagger wrapper:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en')
#2) tag your text.
tags = tagger.tag_text("This is a very short text to tag.")
pprint.pprint(treetaggerwrapper.make_tags(tags))
检查信号是否包含名词(标记NN
),动词(标记VBZ
)和正确的句子标点符号(标记SENT
)