我有一个csv文件,其中包含LinkedIn中专业人士的数据。我想根据工作,过去工作和当前工作这三列来分析数据。这样做的主要目的是通过比较他们的工作/过去的工作/当前的工作来找出专业人员的相似性。那么如何使用python比较csv文件中的列?
这是我尝试过的
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')
for x in dataset['JOB']:
for y in dataset['JOB']:
if x == y:
print dataset['ID']
这是我的数据集的样子: ID,NAME,FIRST_NAME,LAST_NAME,JOB,PAST_JOB,CURRENT_JOB,LOCATION,URL
答案 0 :(得分:0)
只需循环遍历所有记录,然后检查它们是否相等。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')
for x in range(len(dataset['JOB'])): #iteration over all the records
if dataset['JOB'][x]==dataset['PAST_JOB'][x]:
print('ID: '+str(dataset['ID'][x])+' has past job equal to job')
if dataset['JOB'][x]==dataset['CURRENT_JOB'][x]:
print('ID: '+str(dataset['ID'][x])+' has current job equal to job')