如果包含文件名/路径以及包含已知重复项的外部文件,则需要删除整个json blob /对象

时间:2019-09-10 21:56:07

标签: python json pandas

我将如何删除以以下内容开头的字符串:{“ filename”:“ \\ network \ test \ etc \ file0001.tif并以}]}]}

结尾

对象的长度取决于文件的大小,内容。

我开始用python找出数据框/熊猫,但我还不了解一般的json结构。

import pandas as pd
df = pd.read_json('Filelist.json')
--ColA in the index = "filename" (Need help here)--
dups = pd.read_csv('Deleted_Duplicates.csv')

df_final = df.loc[~df.ColA.isin(dups.Duplicates),:]

df_final.to_json('Filelist_NoDupes.csv',index=False)

我希望我可以忽略文件名所在的列,而使用外部列表删除整个行/对象并输出新文件。

1 个答案:

答案 0 :(得分:0)

您将需要找出正确的转义符,因为您没有要测试的有效示例,但这将是这样的:

df_final = df.loc[~df.ColA.str.match(pat = '\{"filename"\: "\\\\network\\test\\etc\\file0001.tif.*\}\]\}\]\}') ,:]