我需要删除所有行,这些行以“ InvoiceNo”列中的字母“ C”开头。c我在这里找不到答案,这就是为什么我希望提供帮助。
import numpy as np
import pandas as pd
import csv
from matplotlib import pyplot as plt
import xlsxwriter
import re
dataset = pd.read_excel('OnlineRetail2.xlsx')
dataset.head()
答案 0 :(得分:1)
如果您可以用纯文本格式提供一些示例数据,这将帮助我进行测试,但是我相信这可以解决问题。
dataset = dataset.loc[dataset.InvoiceNo.str[0] != 'C'].copy()
基本上选择dataset.InvoiceNo
不是 以字母C开头的那些行,然后将数据集重新分配给仅这些行的副本(将其他所有内容都排除掉)。
答案 1 :(得分:1)
读取熊猫文件时,可以排除以注释开头的任何行。对于excel:
dataset = pd.read_excel('OnlineRetail2.xlsx', comment="C")
答案 2 :(得分:0)
dataset[dataset["InvoiceNo"].str[0] != "C"]