我的情况是,我有数百个复杂的Excel电子表格,每个电子表格都有多个透视表,可以对sql数据库运行查询。我需要能够将这些sql查询转换为针对专有数据存储的函数调用。这在很多层面都很复杂,但我现在要问的部分,似乎可能已经在计算机科学中得到解决,是如何将sql语句“解析”为一个定义良好的结构,我可以通过编程方式进行处理。 / p>
我的出发点的一个例子:
SELECT vwFlowDataBest.MeasurementDate, vwFlowDataBest.LocationType, vwFlowDataBest.ScheduledVolume, tblPoints.Zone, tblPoints.Name AS SOME_ALIAS_FOR_NAME, vwFlowDataBest.PointID, tblCustomerType.Name, vwFlowDataBest.OperationallyAvailable, tblPoints.County, tblPoints.State, tblConnectingParty.Name
FROM Pipe2Pipe.dbo.tblConnectingParty tblConnectingParty, Pipe2Pipe.dbo.tblCustomerType tblCustomerType, Pipe2Pipe.dbo.tblPipelines tblPipelines, Pipe2Pipe.dbo.tblPoints tblPoints, Pipe2Pipe.dbo.vwFlowDataBest vwFlowDataBest
WHERE tblCustomerType.ID = tblPoints.CustomerTypeID AND tblPipelines.ID = vwFlowDataBest.PipelineID AND tblPoints.ID = vwFlowDataBest.PointID AND tblPoints.ConnectingPartyID = tblConnectingParty.ID AND ((tblPipelines.ID=16) AND (vwFlowDataBest.ScheduledVolume<>0) AND (tblPoints.Zone In ('mid 1','mid 2','mid 3','mid 4','mid 5','mid 6','mid 7')) AND (tblCustomerType.ID=16) AND (vwFlowDataBest.MeasurementDate>={ts '2010-05-15 00:00:00'}) AND (tblPipelines.ID<155))
因此对于这个语句,我需要以编程方式处理SELECT部分,FROM部分和WHERE部分,以及每个部分中的下属。这种情况的复杂性包括别名,区分表之间的连接和where子句中的普通旧值过滤器,where子句中的分组(括号)以及其他问题。处理Excel数据透视表的复杂性完全超出了这个问题的范围,我可以解决这个问题。
目前,我不介意不支持某些sql函数,例如“group by”,“having”等...对于我的问题,那些足够小,如果有必要的话我可以手动处理这些。但是,如果有一种已知的方法来处理它,我会非常高兴。
我的感觉是,我可以通过将sql语句分成3个部分,然后进一步将每个部分分解为逻辑从属部分,然后处理它们,从而可以获得70%的方式(对于我的问题)因此。但是当我写这篇文章时,我已经看到了我计划中的漏洞......这感觉就像是复杂性和边缘情况的副本。
我无法想象我是第一个想要做这样事情的人,所以我的问题是,是否存在旧的,经过验证的解决此类问题的方法,现有的图书馆,我可以采取的创新方法,或任何一般建议适用于这项任务?
答案 0 :(得分:3)
您似乎需要一个SQL解析器(或至少部分一个)。它可能对您的目的而言过于苛刻(比您需要的更完整),但PL/SQL parser ANTLR可能有用。
编辑:在我发布链接之前,我没有像我应该仔细阅读那个语法。做一点看,它根本不会真正解析select语句 - 它只是识别一个语句的位置,然后跳过它。
ANTLR grammars page列出了几个SQL语法(对于MySQL,Oracle等支持/使用的变体)因为你在标签中有C#等,所以猜测你想解析它可能是公平的MS SQL Server变体。 select
语句严格适用于{{1}}语句,可能符合您的需求。