文字分类和推荐

时间:2019-04-13 05:22:29

标签: python machine-learning

我正在尝试为农村(村庄)区域创建一种用于地址分类或类似地址分类的机器学习算法。我有一个历史数据,其中包括地址(独立变量),村庄名称(独立变量)PIN码(独立变量),客户手机号码和路线编号(独立变量)列表。路线号适用于送货车,这将帮助他们覆盖该地区的最大送货目的地。

挑战-

  1. “地址”可能会拼写错误。
  2. “村庄名称”可以为空。
  3. “ PIN码”可能是错误的。

好东西-

并非所有自变量都可以同时为错误/空值。

现在,创建此算法的目的是根据“地址”,“村庄”,“ Pin码”和历史数据(其中我们已手动选择要发送的路线)来选择最佳路线号车)。

我是初学者,我很困惑如何执行该过程。

完成任务。

地址清除-已删除短词,已删除大字,已删除停用词。

现在尝试使用字向量,但我无法做到这一点。

1 个答案:

答案 0 :(得分:1)

首先,您必须首先建立一个数据集-包含尽可能多的村庄名称!由于许多村庄的名称相似,因此识别拼写是非常困难且危险的!一两个字母是有区别的。因此,数据集越大越好。 然后,尝试对村庄名称和PIN码(TF-IDF)组合使用this link may be helpful for Indian data,或者可以使用模糊逻辑。 希望能帮助到你!编码愉快!