如何将字符串分类为类别(受监督)

时间:2019-01-02 15:04:01

标签: python neural-network text-classification

现在是2019年1月,我想更好地了解自己的支出。我已经将银行记录下载为csv文件,并在意识到可以自动执行时开始将不同的交易分类。最终,我想获得每个类别的百分比,例如我已经在食物和饮料上花费了12%。

信息以荷兰语显示,因此如果不先翻译就无法应用预训练的模型。

我知道有第三方工具可用于此任务,但我想自己做(最好在python中)作为练习,因为它很有趣。

示例类别为: 工资,租金,食品和饮料,假期等

要输入的数据是大小(2000行9列) enter image description here

我已经探索了多种选择:

  1. 使用正则表达式进行分类。 可能使用模糊字符串匹配。 虽然这可能是一个无聊的选择,但不能很好地处理新类别。

  2. 执行命名实体提取(翻译后) 另一个可能性,但我的数据集是荷兰语,非常具体。我不确定这种通用方法是否是最佳方法。另外,我将如何处理单个描述产生多个实体的情况?

  3. 神经网络。
    这很酷,但是简单的Google搜索不会返回简单的教程来将字符串分类。我对机器学习有一点经验,但只有卷积。我不知道如何将描述列转换为功能,也无法知道要达到合理的性能之前需要手动标记多少行,尽管我可以做一个简单的尝试并回答一下。

  4. 另一个question中提供的解决方案。
    包括SVM或朴素贝叶斯。我没有使用任何一种方法的经验,因此想在选择错误的方法之前仔细检查一下。我的数据也与问题完全不同。

0 个答案:

没有答案