R或Python中的Vlookup

时间:2017-11-28 17:40:53

标签: python r excel etl

我需要将数千种手工打印的产品代码映射到公司的实际产品代码中。问题是输入产品代码时会出现大量数据输入错误。

现在,我必须采用所有手动输入的产品代码并将其映射到公司给出的实际产品代码。 (P.S我的数据库中有大约500,000行,大约有3000个实际产品代码列表。)

示例:假设有一个产品代码为123-A的产品。在我的数据库中,我有6行,如下所示:

  • 123A
  • A123
  • 12300
  • 123A
  • 123-A

当我在excel中执行vlookup时,我只能映射完全匹配的最后一行。

因此,我现在关注的过程分为以下四个步骤:

  1. 执行完全匹配的vlookup

  2. 删除' - '从实际产品代码和数据库产品代码列表中选择'。'(如果有),然后执行vlookup。

  3. 删除所有字符并仅保留实际产品代码和数据库产品代码列表中的数字,然后执行vlookup。

  4. 从实际产品代码和数据库产品代码列表中总结产品代码中的所有数字,然后执行vlookup。

  5. 我想在Python或R中重新创建相同的过程,在那里我可以提供实际的产品代码列表和数据库产品代码列表并获得输出。

    非常感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

在Excel中,您可以在'123'周围使用2个通配符。

"*"&123&"*"

下面是一张图片。

enter image description here

我在基地R尝试了一些事情;我无法正常工作。