我最近构建了一个简单的名称流行度工具(http://names.yafla.com),允许用户选择名称并调查他们随时间和状态的受欢迎程度。这只是一个有趣的项目,没有商业或专业价值,但解决了好奇心痒。
我想补充的一个改进是在选择列表中每个名称旁边显示简单的迷你图,显示自1910年以来的标准化全国人气趋势。
为每一个名字做一个图像请求 - 假设我已经为每个可能的变体预先构建了火花线 - 会使界面变得太慢并产生大量不必要的流量,因为用户快速滚动并过滤了数百个他们不感兴趣的名字。用一组名字来建立带有迷你图的精灵是可能的,但是再次有成千上万的名字,最后用户的缓存会带来很多不必要的信息。
我的目标绝对是极简主义。
让我想到了获取M组数据(随着时间的推移而发生)并将其提炼到最接近的N代表性迷你线的有趣挑战。为此目的,它们不一定非常精确,但应该是一般匹配,并且我可以调整N以产生一定的准确度。
基本上是一种火花线有损压缩的形式。
我觉得这肯定是一个已解决的问题,但无法找到或解决会产生缩短路径的算法的启发式算法。
答案 0 :(得分:0)
您所描述的似乎是聚类分析 - 例如把它推到维基百科会给你一个起点。用于聚类分析的特定方法包括k-平均和单连接。相关主题是潜类分析。
如果你这样做,另一种选择是查看出来的集群,给它们描述性的名称,然后显示集群名称而不是不准确的迷你图 - 或者我猜你不仅可以在迷你图中绘制一条线,但两条或更多条线显示了该群集中的流行程度。