我有DataFrame
个答案,分别是100个questions_id
和50个user_id
。每行代表来自特定用户的单个问题。桌子看起来像这样。
user_id | question_id | timetaken | answer_1 | answer_2 |
1015 | 1 | 30 | A | C |
1015 | 2 | 45 | B | B |
1016 | 1 | 15 | A | A |
1016 | 2 | 55 | A | D |
我正试图筛选出未完成测试的用户。我这样做的想法是计算每个用户出现在表中的次数,如果user_id
1015在user_id
列中出现了100次,我知道他们完成了100个问题。不幸的是,由于问题是随机的,因此我无法使用question_id
进行过滤,因此用户可以回答5个问题,其中一个问题可能具有question_id = 100
。
我以为这是我的solution,但无法计算出user_id
的出现次数。
答案 0 :(得分:2)
使用boolean indexing
仅过滤计数多于MultipartFile uploadedFile = ((MultipartHttpServletRequest)request).getFile('file_name')
InputStream inputStream = new ByteArrayInputStream(uploadedFile?.getBytes())
次的行,transform
与size
的返回值100
与原始{{ 1}}:
Series
性能:取决于行数和组的长度,因此最好在真实数据中进行测试:
DataFrame
答案 1 :(得分:2)