我有一个特殊的情况会带我去寻求建议,因为这是很长一段时间以来第一次我不知道从哪里开始。
我有一个包含大约700k行的单个表的大型记录数据库。该表主要是带有大量索引的文本字符串,因为有很多方法可以与我们网站上的数据进行交互。
我正在尝试构建一个听起来非常简单的工具:
在此表中有一个名为business_codes的列。
此表格包含一系列两位数字符串,用波浪线分隔"〜"。
现在这个列不能为NULL,因此每个记录总是至少有一个两位数的字符串。
我们有一份工作,每小时直接通过cron&更新这些记录。一些PHP。
我尝试创建的工具将为每个记录拉出字符串,然后将每个记录与数据库中的所有其他记录进行交叉引用。返回它的使用次数。
例如。您登录该站点,然后检查此工具。
数据库中您自己的business_codes是AB~CD~EF
我希望该工具对您的每个business_codes进行排序,并根据使用具有相同业务代码的其他记录输出建议的business_codes以添加到您的个人资料。
该工具会查找您自己的每个代码并生成结果:
84%在其个人资料中使用AB的其他business_codes也使用HI 在他们的个人资料中有77%的其他带有CD的business_codes也使用LM
这绝对是疯狂。我的第一个尝试是创建一个元数据表并将代码分别导入到新表中,而不是〜。
我可以编写PHP来显示所有这些,我的问题是关于表的结构(如果甚至需要创建表)。我对如何处理这个问题感到茫然。
任何帮助将不胜感激。