我有一个名为“X.tsv”的文件我希望在将它们导出到python中的子文件之前使用正则表达式删除特殊字符(包括双空格)(不包括。单空格选项卡/ - )
我想在以下代码中实现它。
import pandas as pd
import csv
from itertools import chain, combinations
df = pd.read_table('xa.tsv')
def all_subsets(ss):
return chain(*map(lambda x: combinations(ss,x), range(0, len(ss) + 1)))
cols = [x for x in df.columns if not x == 'acm_classification' if not x== 'publicationId' if not x== 'publisher' if not x== 'publication_link' if not x== 'source'] # Exclude Extra Cols
subsets = all_subsets(cols)
for subset in subsets:
if len(subset) > 0: #
df1 = df[list(subset) + ['acm_classification']]
df1.to_csv('_'.join(subset) + '.csv', index=False)
答案 0 :(得分:0)
您可以使用read_csv()
来帮助加载TSV文件。然后,您可以指定要保留的列,并使用\t
作为分隔符:
import pandas as pd
import re
def normalise(text):
text = re.sub('[{}]'.format(re.escape('",$!@#$%^&*()')), ' ', text.strip()) # Remove special characters
text = re.sub(r'\s+', ' ', text) # Convert multiple whitespace into a single space
return text
fieldnames = ['title', 'abstract', 'keywords', 'general_terms', 'acm_classification']
df = pd.read_csv('xa.tsv', delimiter='\t', usecols=fieldnames, dtype='object', na_filter=False)
df = df.applymap(normalise)
print(df)
然后,您可以使用df.applymap()
将函数应用于每个单元格,以根据需要对其进行格式化。在此示例中,它首先删除任何前导或尾随空格,将多个空白字符转换为单个空格,并删除特殊字符列表。
在保存之前,可以使用all_subsets()
函数进一步处理生成的数据帧。