我正在开展一个项目,根据他们用英语交流的方式来确定此人的国籍。我有10个国籍和1000个文件,每个国籍100个。我正在使用n-gram作为功能和希望验证我的方法。我的数据结构将具有不同的n-gram(字符n-gram,bi-gram,作为列)作为特征&国籍作为标签(作为行)我的步骤是:
问题是我应该存储n-gram&矩阵中的频率信息(具有所有n-gram&标签的单个矩阵或每个标签的单独矩阵)或者我应该将其存储为地图(每个标签的地图,具有n-gram及其频率计数)。我希望有一个数据结构(用于存储提取的信息),分类器很容易作为输入和输入。处理它们。我无法预见,哪种数据结构是更好的选择。
答案 0 :(得分:1)
2)好的。
3)n-gram和频率计数通常不适合自己进行特征分类。您可能希望为每个标签分别使用矩阵/贴图,然后使用类似TF-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf)的内容来识别特定标签特征的n-gram。
4)在分类时,您需要构建一个固定长度的向量,您可以在其中选择上一步中为每个标签识别的nmap的子集,然后将其用于训练和分类。你可能还需要对计数进行某种规范化。