我正处于实施比较2个市场数据源的工具的最初阶段,以便向我的老板证明新开发源的质量(意味着没有回归,没有错过更新或错误),以及证明延迟改善。
所以我需要的工具必须能够检查更新差异,并告诉哪个源是最好的(在延迟方面)。
具体而言,参考源可能是路透社,而另一个是我们内部开发的Feed处理程序。人们警告我,更新可能不会按照相同的顺序到达,路透社的实施可能与我们完全不同。因此,基于更新可能以相同顺序到达的事实的简单算法可能不起作用。
我的第一个想法是使用指纹来比较饲料来源,因为Shazaam应用程序确实找到了您提交的管的标题。谷歌告诉我它是基于FFT的。我想知道信号处理理论是否能在市场准入应用中表现良好。
我想知道您自己在该领域的经验,是否有可能开发出一种非常准确的算法来满足需求?你自己的想法是什么?您如何看待基于指纹的比较?
答案 0 :(得分:1)
如果提供数据的交换机为其提供的数据提供了一些唯一标识符,则实现相当简单,但并非无足轻重。
从本质上讲,您有一个订阅两个Feed的应用。 (您可以使用基于嗅探的软件以及非侵入式监控/测量来实现此目的 - 我也可以尝试解决这个问题)
您将保留两个不匹配数据/更新的列表(或任何其他记录每个Feed中“不匹配”样本的方法)。每次更新时,您都会在其他数据Feed的另一个列表中查找相应的项目。成功匹配后,您可以保存此配对。当每次更新进来时,你必须以某种方式为它分配一个“时间戳” - 可能是本地机器时间。由于在这种简单情况下的起源是相同的交换,因此确定相对延迟相当容易。
此方法需要为数据编写订阅应用程序。
存在许多问题,例如处理丢失的更新和超时不匹配的数据,如何处理可能无法提供更新的唯一ID的交换或馈送,解决数据供应商错误WRT本地与UTC时间等等。
嗅探数据类似,但您可以通过pcap或硬件捕获卡捕获数据,然后根据数据包的端点解析数据流。这比直接订阅有点困难,但具有非侵入性的优势,并且对于您可以测量的数据集非常灵活。
答案 1 :(得分:0)
我已经看到围绕企业行动数据的多个来源提供的一种方法就是保持一种启发式信息,通过这种方法可以了解哪些供稿在历史上最为准确,从而更加重视其数据。
当然,在所有类型的市场数据中,公司行为可能是最低交易量之一,因此这种技术可能不会扩展到勾选数据!