Question

我需要删除所有行，这些行以“ InvoiceNo”列中的字母“ C”开头。c我在这里找不到答案，这就是为什么我希望提供帮助。

import numpy as np
import pandas as pd
import csv
from matplotlib import pyplot as plt
import xlsxwriter
import re


dataset = pd.read_excel('OnlineRetail2.xlsx')
dataset.head()

Answer 1

如果您可以用纯文本格式提供一些示例数据，这将帮助我进行测试，但是我相信这可以解决问题。

dataset = dataset.loc[dataset.InvoiceNo.str[0] != 'C'].copy()

基本上选择dataset.InvoiceNo不是以字母C开头的那些行，然后将数据集重新分配给仅这些行的副本（将其他所有内容都排除掉）。

Answer 2

读取熊猫文件时，可以排除以注释开头的任何行。对于excel：

dataset = pd.read_excel('OnlineRetail2.xlsx', comment="C")

搜索“评论” in the 'read_excel' documentation。

Answer 3

dataset[dataset["InvoiceNo"].str[0] != "C"]

如何删除以Python开头的行？

3 个答案: