Question

当您使用Ibis API查询黑斑羚时，由于某种原因，Ibis API强制它成为子查询（当您加入4-5个表时，它突然变得非常慢）。由于连接中列名重叠问题，它根本无法正常连接。我想要一种可以快速重命名列的方法，这不是SQL通常的工作方式吗？

i0 = impCon.table('shop_inventory')
s0 = impCon.table('shop_expenditure')
s0 = s0.relabel({'element_date': 'spend_element_date', 'element_shop_item': 'spend_shop_item'})
jn = i0.inner_join(s0, [i0['element_date'] == s0['spend_element_date'], i0['element_shop_item'] == s0['spend_shop_item']])
jn.materialize()
jn.execute(limit=900)

然后，您有IBIS生成的SQL在不建议我的情况下对其进行了查询：

SELECT *
FROM (
  SELECT `element_date`, `element_shop_item`, `element_address`, `element_expiration`,
         `element_category`, `element_description` 
  FROM dbp.`shop_inventory`
) t0
  INNER JOIN (
    SELECT `element_shop_item` AS `spend_shop_item`, `element_comm` AS `spend_comm`,
           `element_date` AS `spend_date`, `element_amount`,
           `element_spend_type`, `element_shop_item_desc`
    FROM dbp.`shop_spend`
  ) t1
    ON (`element_shop_item` = t1.`spend_shop_item`) AND
       (`element_category` = t1.`spend_category`) AND
       (`element_subcategory` = t1.`spend_subcategory`) AND
       (`element_comm` = t1.`spend_comm`) AND
       (`element_date` = t1.`spend_date`)
LIMIT 900

为什么这么难？

理想情况下，它应该像这样简单：

jn = i0.inner_join(s0, [s0['element_date'].as('spend_date') == i0['element_date']]

生成一个：SELECT s0.element_date as spend_date, i0.element_date INNER JOIN s0 dbp.shop_spend ON s0.spend_date == i0.element_date

对吗？

我们是否永远不允许在要连接的表上使用相同的列名？我很确定在原始SQL中，您可以只使用“ X AS Y”，而无需子查询。

Answer 1

在过去的几个小时中，我一直在努力解决同一问题。我发现一个更好的解决方案是执行以下操作。联接保持变量名称相同。然后，在实现之前，请仅选择变量的子集，以确保没有任何重叠。

所以在您的代码中，它看起来像这样：

jn = i0.inner_join(s0, [i0['element_date'] == s0['element_date'], i0['element_shop_item'] == s0['element_shop_item']])

expr = jn[i0, s0['variable_of_interest_1'],s0['variable_of_interest_2']]
expr.materialize()

有关更多资源，请参见此处 https://docs.ibis-project.org/sql.html

Ibis Impala JOIN问题，带有重新标签/名称“ AS AS newName列”

1 个答案: