Moving Percentile

Oct 18, 2021 • moontree


事情的背景是这样子的,我们训练了一个id类为主要特征的模型,而且id的更新特别快,生命周期在3天左右,但是由于流程问题,模型只能天级更新。 模型给出一个预估分数,后续通过卡阈值来进行某些操作。上线后发现一个问题:每天的输出值分布变化较大,导致阈值不能卡固定值。

怎么去取一个动态的阈值,才能保证后续处理的数据是整体的90%左右呢?

考虑到batch normalization,通过减均值、除方差的形式来对每层的输出进行归一化,其中有moving average的技巧, 那是不是有类似的方案,可以通过滑动窗口计算分位数呢? 经过一番搜索,终于看到了一个可能可行的方案:

\[\begin{array}{l} m_0 = x_0 \\ if \quad x_i < m_{i-1} \quad m_i=m_{i-1}-\frac{\delta}{p} \\ else \quad if \quad x_i > m_{i-1} \quad m_i=m_{i-1}+\frac{\delta}{1-p} \\ else \quad m_i=m_{i-1} \end{array}\]

在该方案中,$\delta$的取值比较关键,通过$\delta_i=\sigma_i\dot r$来获取,r是指定的超参,而$\sigma_i$是通过moving average计算出来的标准差。

该链接中,作者认为r的取值从0.001到0.01都可以,但是,经过实际测试,发现r的取值较大时, 分位数的均值接近预期,但是方差会很大。尤其是分位数较小或者较大(0.99, 0.999)时,r的取值需要更小才行。

为了接近这个问题,尝试对分位数再进行moving average,结果会稳定很多。如下图所示:

  • 数据分布确定时,r决定了分位数的方差:r越小,方差越小;r越大,方差越大
  • 相同的r下,分位数也会有一定影响,p(1-p)越小,准确性越差
  • 建议添加一次moving average,来获取更稳定的分位数均值

示例代码参见:

代码

Reference