以下是数据快照:
我想查找对包含子字符串' xxxxx'的页面发出的总请求数。 (假设)
每当我尝试对page_name变量执行任何字符串操作时,它都将该属性显示为float并且我收到错误。这是错误: Error
我从csv文件中获取了数据。它有600万条记录。它显示的数据类型为: '语言' :对象, ' PAGE_NAME' :对象, '请求' :int64
我尝试使用:english_data['page_name'].astype(basestring)
这似乎不起作用。
答案 0 :(得分:2)
您可以使用str
Series
属性以矢量化方式应用字符串方法。要使用某个字符串'page_name'
在'xxx'
列中查找行,您可以执行
df.page_name.str.contains('xxx')
要获取该页面的请求总数,您可以执行类似
的操作df.requests[df.page_name.str.contains('xxx')].sum()