我有一个数据集,其中有两列:行业分类和股票行情指示器。一家公司的“行业分类”列中有多个标签,中间用“;”分隔定界符。我只想选择第一个标签。
找不到可行的解决方案。
将熊猫作为pd导入 training = pd.read_excel('Training Data.xlsx')
当前文件结构:(这是该列的示例)
行业分类 美容产品(初级);消费必需品(初级);护发产品(主要);
目录花,礼物和新颖性(初级);兴趣爱好,游戏和玩具零售(初级);
信息技术(初级);互联网软件和服务(初级); 伤亡(小学);财务(初级);消防和海上保险(初级);
商业和专业服务(初级);商业服务和用品(初级);
银行(主要);银行(初级);多元化银行(初级);财务(初级);
应用软件(主要);信息技术(初级);软件(主要);
商业和专业服务(初级);咨询服务(初级);工业(初级);
银行(主要);银行(初级);财务(初级);国家和州商业银行(主要);
预期输出:
行业分类
美容护理产品(主要)
目录花
信息技术(初级)
伤亡(主要)
商业和专业服务(初级)
银行(主要);银行(主要)
应用软件(主要)
商业和专业服务(初级)
银行(主要);银行(主要)
答案 0 :(得分:1)
您可以像已经做的那样提取第一列,然后在分号上分割并采用结果的第一元素。
first_tag = col.split(';')[0]