Question

假设我正在尝试创建一些stackoverflow元数据的计数向量（实际上不是我在做什么，而是类似的）。因此，DataFrame可能看起来像这样：

question:    description:      tags:
Q1           desc1             java, android
Q2           desc2             python, machine learning
Q3           desc3             javascript, Node.js

如果我想使用每个单独的标签而不是标签的组合来创建频率计数，我该怎么做？

我知道我可以使用df.groupby('tags').count()，但这只会将java, android视为其自己的类别，而不是将java视为一个类别，而将`android视为一个单独的类别类别。

Answer 1

您可以将正则表达式public static List<Article> getStart(List<Article> list, String dateStart, String dateEnd) { final Predicate<String> isInRange = date -> date.compareTo(dateStart) >= 0 && date.compareTo(dateEnd) <= 0; final Predicate<Article> isIntersect = article -> isInRange.test(article.getStartdatevalidity()) || isInRange.test(article.getEnddatevalidity()); return list.stream().filter(isIntersect).collect(Collectors.toList()); }的{{3}}用于带有一个或多个空格的逗号，然后通过str.split创建,s\+并最后通过stack获得计数：

Series

如何在pandas数据框列中获得以逗号分隔的值的频率计数？

1 个答案: