用其他语言处理CountVectorizer

时间:2016-04-14 07:50:07

标签: python python-3.x scikit-learn thai

我使用Scikit的CountVectorizer学习计算已经标记化的泰语单词的出现,然后尝试在Python 3中对文本进行矢量化

代码:

#-*-coding: utf-8 -*-

w_vector = ["การ", "ซ้อม"]
v = CountVectorizer(vocabulary=w_vector, token_pattern="(?u)\\b\\w*\\b", lowercase=False)

print(v.fit_transform(["การ ซ้อม"]).toarray())

输出:

[[1 0]]

实际上应该是[[1 1]]。

在我的观察中(我已经完成了许多使用泰语单词数据集的测试),我认为泰语元音在“ซ้อม”中存在“้”(泰语元音)问题,但对于另一个案例如“การ” (没有元音)它不会对使用CountVectorizer

造成任何问题

您是否有任何建议调整CountVectorizer以识别此案例

0 个答案:

没有答案