Python和Pandas的新手,正致力于线性回归问题,以预测英国招聘信息的工资。
作业发布数据框(从.csv文件加载)包含一个名为“规范化位置”的列,该列将位置数据简化为单个位置(即,如果实际发布的位置是“格拉斯哥,苏格兰”,则标准化位置将是'格拉斯哥')。
有一个单独的数据框,其中包含位置树,其中列从较大的地理位置到更具体的地理位置。
E.g。格拉斯哥有一棵树,是“英国,苏格兰,格拉斯哥”,虽然在格拉斯哥还有更多特定地点的树木,如“英国,苏格兰,格拉斯哥,穆尔黑德”
总共有6个位置树列,我标记为英国,地区,子区域,县,城市,自治市/邻里。我需要做的是将位置树列与作业列表数据框合并。工作列表数据框中的规范化位置列包含不同地理类型的混合(例如,一些列表只是说英国,有些只是区域,有些是非常具体的伦敦社区)。
理想情况下,我希望每个职位列出数据框有6个额外的列,如果标准化位置只是'英国'我想要英国专栏有'英国'和其他列(地区,子-region等)字符串'Unknown'。