转换频率较低的值

时间:2016-12-19 04:43:08

标签: knime

假设我通过'File Reader'节点读取了csv的以下列:

    <ul class="nav nav-tabs">
      <li class="pull-right">
        <a class="dropdown-toggle" data-toggle="dropdown"> More <span class="caret"></span></a>
          <ul class="dropdown-menu">
            <li><a [routerLink]="['/profile/settings']">Settings</a></li>
            <li><a [routerLink]="['/profile/billing']">Billing</a></li>
          </ul>
      </li>
      <li class="pull-right" [routerLinkActive]="['active']"><a [routerLink]="['/profile/feature1']">Feature1</a></li>
      <li class="pull-right" [routerLinkActive]="['active']"><a [routerLink]="['/profile/feature2']">Feature2</a></li>
    </ul>

阅读之后,我注意到“城市”一栏包含大量独特的值。我想:

  1. 了解哪些值是'city'最常见的'k'
  2. 修改那些不是'k'最常用的东西来保存像'other'这样的东西
  3. 示例:

    <a [routerLinkActive]="['active']" class="dropdown-toggle" data-toggle="dropdown"> More <span class="caret"></span></a>
    

    选择k为1,我想生成下表:

    id, name, city, income
    

    之所以发生这种情况,是因为“纽约”是原始表格中“城市”最常见的“1”值。

    你知道我怎么能用Knime做到这一点吗?

    非常感谢!

1 个答案:

答案 0 :(得分:2)

您可以使用CSV Reader读取数据。使用统计信息和行过滤器节点,您可以找到k个最常见的值。从那些,您可以使用GroupBy创建一个集合单元格。使用该集合值,您可以将Rule Engine与类似的规则集一起使用:

$city$ IN $most frequent cities$ => $city$
TRUE => "Other"