Question

我有一个csv文件，其中包含LinkedIn中专业人士的数据。我想根据工作，过去工作和当前工作这三列来分析数据。这样做的主要目的是通过比较他们的工作/过去的工作/当前的工作来找出专业人员的相似性。那么如何使用python比较csv文件中的列？

这是我尝试过的

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import re 
import warnings 
warnings.filterwarnings("ignore") 
%matplotlib inline 
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')

for x in dataset['JOB']:
  for y in dataset['JOB']:
    if x == y:
        print dataset['ID']

这是我的数据集的样子： ID，NAME，FIRST_NAME，LAST_NAME，JOB，PAST_JOB，CURRENT_JOB，LOCATION，URL

Answer 1

只需循环遍历所有记录，然后检查它们是否相等。

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import re 
import warnings 
warnings.filterwarnings("ignore") 
%matplotlib inline 
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')

for x in range(len(dataset['JOB'])): #iteration over all the records
    if dataset['JOB'][x]==dataset['PAST_JOB'][x]:
        print('ID: '+str(dataset['ID'][x])+' has past job equal to job')
    if dataset['JOB'][x]==dataset['CURRENT_JOB'][x]:
        print('ID: '+str(dataset['ID'][x])+' has current job equal to job')

如何使用python比较csv文件中的列？

1 个答案: