我正在尝试为农村(村庄)区域创建一种用于地址分类或类似地址分类的机器学习算法。我有一个历史数据,其中包括地址(独立变量),村庄名称(独立变量)PIN码(独立变量),客户手机号码和路线编号(独立变量)列表。路线号适用于送货车,这将帮助他们覆盖该地区的最大送货目的地。
挑战-
好东西-
并非所有自变量都可以同时为错误/空值。
现在,创建此算法的目的是根据“地址”,“村庄”,“ Pin码”和历史数据(其中我们已手动选择要发送的路线)来选择最佳路线号车)。
我是初学者,我很困惑如何执行该过程。
完成任务。
地址清除-已删除短词,已删除大字,已删除停用词。
现在尝试使用字向量,但我无法做到这一点。
答案 0 :(得分:1)
首先,您必须首先建立一个数据集-包含尽可能多的村庄名称!由于许多村庄的名称相似,因此识别拼写是非常困难且危险的!一两个字母是有区别的。因此,数据集越大越好。 然后,尝试对村庄名称和PIN码(TF-IDF)组合使用this link may be helpful for Indian data,或者可以使用模糊逻辑。 希望能帮助到你!编码愉快!