我正在关注有关文本分类的教程-https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/。
我的文本域是拉丁文的公证契约和相应的契约类型。这是我的数据的一部分:
我目前只有150份事迹,在上一步中,该文本已从所有标点中删除。
当我尝试使用诸如朴素贝叶斯(Naive Bayes)之类的分类器时,在提取特征之后,与示例相比,我得到的准确性很低:
NB, Count Vectors: 0.02631578947368421
NB, WordLevel TF-IDF: 0.02631578947368421
NB, N-Gram Vectors: 0.02631578947368421
NB, CharLevel Vectors: 0.02631578947368421
知道为什么吗?训练集太小了吗?
我有53个不同的标签-我注意到我可以纠正一些拼写错误,但是仍然有很多标签。这些都是标签:
{'Accordium',
'Apoca',
'Associacio',
'Codicillum',
'Conduccio',
'Conducio seu locacio',
'Conductio',
'Confessio',
'Confessio permutacionis',
'Consignacio dotis',
'Consignatio dotis',
'Dacio Jnsolutum',
'Debitum',
'Debitum Jncabellacio',
'Divisio',
'Donacio',
'Dos',
'Electio Jurispatronatus',
'Empcio',
'Empcio cum gracia',
'Emptio',
'Emptio cum gracia',
'Emptio cum gracia et debitum',
'Inductio possessionis',
'Ingabellacio',
'Jncabellacio',
'Jncabellacio ovium',
'Jncabellacio viridarij',
'Jnduccio possessionjs',
'Licencia',
'Locacio',
'Locacio domus',
'Locacio persone',
'Locacio terrarum',
'Matrimonium',
'Obligacio',
'Permutacio',
'Presentacio Animagij',
'Presentacio Juris patronatus',
'Presentacio Jurispatronatus',
'Presentacio beneficij',
'Procuracio',
'Protestacio',
'Recuperacio',
'Recusacio JnJunctionis',
'Remissio',
'Renunciacio gracie',
'Responsio protestacionis',
'Sentencia',
'Societas',
'Societas vacce',
'Testamentum',
'Transacio'}
,这就是所有数据框: https://drive.google.com/open?id=1D6MxfoOLbHzld86Rw1Cso-mpiUpKv7rQ