Question

我有一个数据集，其中有两列：行业分类和股票行情指示器。一家公司的“行业分类”列中有多个标签，中间用“;”分隔定界符。我只想选择第一个标签。

找不到可行的解决方案。

将熊猫作为pd导入 training = pd.read_excel（'Training Data.xlsx'）

当前文件结构：（这是该列的示例）

行业分类美容产品（初级）；消费必需品（初级）；护发产品（主要）；

目录花，礼物和新颖性（初级）；兴趣爱好，游戏和玩具零售（初级）；

信息技术（初级）；互联网软件和服务（初级）；伤亡（小学）；财务（初级）；消防和海上保险（初级）；

商业和专业服务（初级）；商业服务和用品（初级）；

银行（主要）；银行（初级）；多元化银行（初级）；财务（初级）；

应用软件（主要）；信息技术（初级）；软件（主要）；

商业和专业服务（初级）；咨询服务（初级）；工业（初级）；

银行（主要）；银行（初级）；财务（初级）；国家和州商业银行（主要）；

预期输出：

行业分类

美容护理产品（主要）

目录花

信息技术（初级）

伤亡（主要）

商业和专业服务（初级）

银行（主要）；银行（主要）

应用软件（主要）

商业和专业服务（初级）

银行（主要）；银行（主要）

Answer 1

您可以像已经做的那样提取第一列，然后在分号上分割并采用结果的第一元素。

first_tag = col.split(';')[0]