我正在尝试在具有10.000+行的数据库上创建组。 我需要快速有效,所以我正在为每个集群做二进制变量。 一,二,四,五和六是在Group1中。
但'Two'也可能在Group nr。 2,因为错误我无法克服,因为我的数据集来自webscrape。我尝试以独特的方式对所有内容进行排序,但如果我希望高效快速的话,基本上不可能不做错误。
ID Title Group1 Group2 Group3 Ungrouped
1 One 1 0 0 0
2 Two 1 1 0 0
3 Three 0 1 1 0
4 Four 1 0 1 0
5 Five 1 0 0 0
6 Six 1 1 1 0
7 Seven 0 0 0 1
我对溶剂的想法:
手动执行第3部分实际上是个好主意,因为它需要对文档进行内容分析。
我的问题:
如何指定,我需要查看多个组的所有内容?它是否与约束和唯一值有关,还是有一种我没有看到的更简单明了的方法?
答案 0 :(得分:0)
如果您的群集存储为整数,则可以执行以下操作:
select c.*
from clusters c
where (cluster1 + cluster2 + cluster3) > 1;
我不知道SQLite中的“二进制变量”是什么。有些数据库支持二进制标志,您需要将值转换为where
子句的整数。