假设我正在尝试创建一些stackoverflow元数据的计数向量(实际上不是我在做什么,而是类似的)。因此,DataFrame可能看起来像这样:
question: description: tags:
Q1 desc1 java, android
Q2 desc2 python, machine learning
Q3 desc3 javascript, Node.js
如果我想使用每个单独的标签而不是标签的组合来创建频率计数,我该怎么做?
我知道我可以使用df.groupby('tags').count()
,但这只会将java, android
视为其自己的类别,而不是将java
视为一个类别,而将`android视为一个单独的类别类别。
答案 0 :(得分:3)
您可以将正则表达式public static List<Article> getStart(List<Article> list, String dateStart, String dateEnd) {
final Predicate<String> isInRange = date -> date.compareTo(dateStart) >= 0 && date.compareTo(dateEnd) <= 0;
final Predicate<Article> isIntersect = article -> isInRange.test(article.getStartdatevalidity()) || isInRange.test(article.getEnddatevalidity());
return list.stream().filter(isIntersect).collect(Collectors.toList());
}
的{{3}}用于带有一个或多个空格的逗号,然后通过str.split
创建,s\+
并最后通过stack
获得计数:
Series