将因子值转换为新变量,该变量存储因子中发生的次数

时间:2016-10-11 17:25:35

标签: r dplyr

我有来自kaggle的ATP数据集。我正在研究它。在数据集中,我有各种变量,如比赛日期,城市,锦标赛名称,赢家名称,输家名称,比赛获胜者赢得的总集合,比赛输家赢得的总集合,赢家赢得的总比赛,输赢的总比赛等等。

我的注意力集中在比赛获胜者和比赛失败者栏目上。 这些列是因子变量,具有玩家名称的值。

现在我想要的是为不同的球员(比如前5名或前10名球员的输赢率最高)绘制比赛输赢率的图表,其中x轴代表球员的名字和y轴代表该球员的输赢率。

如何创建此特定图表。我尝试在dplyr包中使用管道衬里,如下所示: 获胜者和失败者是因子变量。

roger_wins <- atp %>% filter(Winner == "Federer R.") %>% count(Winner)
roger_loss <- atp %>% filter(Loser == "Federer R.") %>% count(Loser)

但是使用这种方式必须对每个玩家进行硬编码。如何使用前5名或前10名球员的代码(根据胜负) 请在R中提供解决方案。 这是可以找到数据集的页面: https://www.kaggle.com/jordangoblet/atp-tour-20002016

1 个答案:

答案 0 :(得分:0)

如果我理解你的问题,你可以这样做:

  1. 使用表格功能复制数据
  2. 然后,您可以在第一个点
  3. 的输出上使用应用功能