问题2:在我学习和尝试理解实施过程中的熊猫时,请多多包涵
让我说我的数据框如下
Date A B-Id C D E
November 05, 2019 1 aa article-12 23 34
November 07, 2019 1 aa article-21 23 34
November 09, 2019 1 aa sr.confirm 23 34
November 14, 2019 1 bb article-30 23 34
December 14, 2019 1 bb article-76 23 34
December 14, 2019 1 bb article-04 23 34
December 15, 2019 1 bb article-11 23 34
December 15, 2019 1 bb sr.confirm 23 34
December 15, 2019 1 cc article-54 23 34
December 16, 2019 1 cc article-12 23 34
December 17, 2019 1 cc article-12 23 34
根据@Osbark,您提供的解决方案将针对每个唯一的visitor_id(即B-Id)筛选出包含字符串article和sr.confirm在C列中的行。
根据解决方案,我们得到
Date A B-Id C D E
November 05, 2019 1 aa article-12 23 34
November 07, 2019 1 aa article-21 23 34
November 09, 2019 1 aa sr.confirm 23 34
November 14, 2019 1 bb article-30 23 34
December 14, 2019 1 bb article-76 23 34
December 14, 2019 1 bb article-04 23 34
December 15, 2019 1 bb article-11 23 34
December 15, 2019 1 bb sr.confirm 23 34
现在,我想进一步根据日期进行过滤,只返回带有sr.confirm的行和在同一日期或之前1个日期查看的文章
所以我得到
`
日期A B-Id C D E
2019年12月14日1 bb article-76 23 34
十二月14,2019 1 bb文章-04 23 34
2019年12月15日1 bb文章11 23 34
问题1 可以说我有一个csv文件,如下所示:
A B C D E
1 aa articlle-12 23 34
2 aa web service 22 35
3 aa 25 41
4 bb article-23 12 21
5 bb sr.confirm 34 23
6 bb mobile 56 98
7 cc sr.confirm 76 65
8 cc new 97 51
在上面的csv文件中,B-是唯一的visitor_id。
我想做的是获取每个visitor_id,即B,例如:首先visitor_id aa有两行,然后检查条件是否c具有包含文章字符串的行和另一个rw = ow包含sr.confirm字符串的行。 / p>
我最终的csv输出文件应该是lik:
A B C D E
4 bb article-23 12 21
5 bb sr.confirm 34 23
我尝试使用pandas来实现,而belwo是代码
import pandas as pd
# df = pd.read_csv('/Users/macbookpro/Downloads/kb1.csv', index_col= "Page Name (custom) (evar31)" )
df1 = pd.read_csv('/Users/macbookpro/Downloads/KB123.csv')# print(df1)
df2 = df1[df1['Page Name (custom) (evar31)'].str.contains("my : group : get-support : file_SR : confirmation", na=False)]# print(df2)
# print(df2.keys())
df3 = df1[df1['Page Name (custom) (evar31)'].str.contains("kb : s : article : ", na=False)]# print(df3)
# print(df3.keys())
df4 = pd.merge(df3, df2, how='inner', on='Visitor_ID')
df4.drop_duplicates(subset="Visitor_ID", keep=False, inplace=False)
def drop_y(df):
# list comprehension of the cols that end with '_y'
to_drop = [x for x in df if x.endswith('_y')]
df.drop(to_drop, axis=1, inplace=True)
drop_y(df4)
def rename_x(df):
for col in df:
if col.endswith('_x'):
df.rename(columns={col: col.rstrip('_x')}, inplace=True)
rename_x(df4)
df5 = df4.drop_duplicates(subset='Page Name (custom) (evar31)',keep='first', inplace=False)
df6 = pd.concat([df5, df2])df6.sort_values('Visitor_ID', axis=0, ascending=True,inplace=False, kind='quicksort', na_position='last')
print(df6['Page Name (custom) (evar31)'])
df6.to_csv(r'/Users/macbookpro/Desktop/new.csv')
答案 0 :(得分:2)
您可以将groupby
与自定义功能一起使用,该功能可以过滤掉既没有article
也没有sr.confirm
的访问者,而仅保留以下行:
def contains_string(group):
mask_article = group["C"].str.contains("article")
mask_confirm = group["C"].str.contains("sr.confirm")
if mask_article.any() & mask_confirm.any():
return group[mask_article | mask_confirm]
else:
return pd.DataFrame([])
result = df.groupby("B", as_index=False).apply(contains_string)
print(result)
A B C D E
3 4.0 bb article-23 12.0 21.0
4 5.0 bb sr.confirm 34.0 23.0
答案 1 :(得分:1)
以下是使用带有groupby
和transform
的布尔逻辑掩码的方法,其中|
是逻辑OR
,而&
是逻辑AND
:
mask1 = df['C'].eq('sr.confirm')
mask2 = df['C'].str.contains('article')
mask3 = mask1.groupby(df['B']).transform('any') & mask2.groupby(df['B']).transform('any')
df[(mask1 | mask2) & mask3]
[出]
A B C D E
3 4 bb article-23 12 21.0
4 5 bb sr.confirm 34 23.0