我正在使用.txt数据集,我将其作为csv文件读入。
data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str)
print data.head()
打印:
0 MUSIC Today at the recording studio, John...
1 POLITICS The tensions inside the government have...
2 NEWS The new pictures of NASA show...
我想要做的是将文本中的所有字母更改为小写。因此,例如,“美国国家航空航天局的新图片......”将成为“美国国家航空航天局的新图片......”,但“新闻”仍然是“新闻”的大写。
有任何建议吗?
答案 0 :(得分:1)
你可以申请一个lambda来为你做这个:
data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str).apply(lambda x: x.astype(str).str.lower())
使用您的示例数据,您会看到:
>>> import pandas as pd
>>> data = pd.read_csv('train.txt', delimiter='\t', header=None, names=['category', 'text'], dtype=str).apply(lambda x: x.astype(str).str.lower())
>>> data.head()
category text
0 music today at the recording studio, john...
1 politics the tensions inside the government have...
2 news the new pictures of nasa show...