如何使用python比较csv文件中的列?

时间:2019-03-17 06:27:10

标签: python-2.7

我有一个csv文件,其中包含LinkedIn中专业人士的数据。我想根据工作,过去工作和当前工作这三列来分析数据。这样做的主要目的是通过比较他们的工作/过去的工作/当前的工作来找出专业人员的相似性。那么如何使用python比较csv文件中的列?

这是我尝试过的

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import re 
import warnings 
warnings.filterwarnings("ignore") 
%matplotlib inline 
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')

for x in dataset['JOB']:
  for y in dataset['JOB']:
    if x == y:
        print dataset['ID']

这是我的数据集的样子:  ID,NAME,FIRST_NAME,LAST_NAME,JOB,PAST_JOB,CURRENT_JOB,LOCATION,URL

1 个答案:

答案 0 :(得分:0)

只需循环遍历所有记录,然后检查它们是否相等。

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import re 
import warnings 
warnings.filterwarnings("ignore") 
%matplotlib inline 
dataset = pd.read_csv('modified_data.csv', encoding = 'utf-8')

for x in range(len(dataset['JOB'])): #iteration over all the records
    if dataset['JOB'][x]==dataset['PAST_JOB'][x]:
        print('ID: '+str(dataset['ID'][x])+' has past job equal to job')
    if dataset['JOB'][x]==dataset['CURRENT_JOB'][x]:
        print('ID: '+str(dataset['ID'][x])+' has current job equal to job')