快速实现具有5位精度的补余误差函数

Question

[虽然这是一个自问自答的问题，但我非常乐意点赞并接受任何能以同等计算量提供更高精度，或在保持相同精度水平的同时减少计算量的其他答案。]

我之前在链接中演示了如何计算余误差函数erfcf()，其最大误差小于三个单位浮点数间隔（ulp）。这一实现可以作为其他函数的基础，比如标准正态分布的累积分布函数（CDF）Φ(x) = ½ erfc(-√½ x)，或是高斯Q函数Q(x) = 1-Φ(x) = ½ erfc(√½ x)。然而，在某些应用场景下，完全精确到单精度的要求并不必要，但erfc()函数的计算时间消耗不可忽略。

文献中提供了多种低精度近似余误差函数的方法，但要么局限于输入域的一个子集，要么优化的是绝对误差，要么计算过于复杂，例如需要多次调用超越函数。那么，如何才能实现高性能且在整个输入域内相对精度大约为5位小数的erfcf()函数呢？

Jordan Running · Answer

这段文字基于这样一个前提条件：所讨论的平台遵循IEEE-754（2008）浮点数标准，在此标准下，float类型被映射到IEEE-754的binary32格式，并且32位整型数据与float类型在字节顺序上采用相同的方式。同时，我们假定存在一个C语言工具链，可以通过设置适当的命令行选项（如必要）来维护IEEE-754语义。作者使用了Intel C/C++编译器，并带有-march=skylake-avx152 -O3 -fp-model=precise这些选项。

鉴于互补误差函数（erfc(x)）关于(0,1)对称，我们可以专注于函数在正半平面上的输入。在这一区间内，函数的衰减特性大致类似于exp(-x²)，并且在使用float类型进行计算时，对于大于10.5的x值，由于下溢会导致结果趋近于零。若在[0, 10.5]范围内绘制erfc(x) / exp(-x²)图形，可以看出这个表达式的形状较难直接用多项式来准确逼近，但非常适合用有理函数，即两个多项式的比值来进行逼近。初步试验表明，每个多项式均为三次的两个多项式应当足以实现五位有效数字的精度。

尽管市面上有很多工具可以生成多项式近似，但在生成有理函数近似方面却不太常见。为此，作者采用了Remez算法的一种改进版本，首先生成了erfc(x) / exp(-x²)的一个初步的最小化最大误差（minimax）逼近R(x) = P(x)/Q(x)，然后又进行了较为广泛的经验性搜索，最终找到了一个能够提供接近等幅震荡误差峰且几乎达到10⁻⁵相对误差的逼近，而对于作者的需求来说，剩余的差异是可以忽略不计的。

通过计算erfc(x) = exp(-x²) * R(x)，显然获得的精度取决于平台expf()函数实现的准确性。根据作者的经验，该函数的忠实四舍五入实现（最大误差≤1 ulp）是比较普遍的。尽管Intel编译器附带的高性能数学库提供了接近正确四舍五入（最大误差非常接近0.5 ulps）的expf()实现，但作者也尝试了自己的忠实四舍五入替代版本my_expf()，即使其误差稍大一些，但对fast_erfcf()函数的精度影响也非常微小。

#include 
#include 
#include 
#include 
#include 

#define USE_FMA          (1)
#define USE_BUILTIN_EXP  (0)

#if !USE_BUILTIN_EXP
float my_expf (float a);
#endif // USE_BUILTIN_EXP

/* Fast computation of the complementary error function. For argument x > 0
   erfc(x) = exp(-x*x) * P(x) / Q(x), where P(x) and Q(x) are polynomials. 
   If expf() is faithfully rounded, the following error bounds should hold:
   Maximum relative error < 1.065e-5, maximum absolute error < 9.50e-6, and 
   maximum ulp error < 176.5
*/
float fast_erfcf (float x)
{
    float a, c, e, p, q, r, s;
    a = fabsf (x);
    c = fminf (a, 10.5f);
    s = -c * c;
#if USE_BUILTIN_EXP
    e = expf (s);
#else // USE_BUILTIN_EXP
    e = my_expf (s);
#endif // USE_BUILTIN_EXP
#if USE_FMA
    q =             3.82346243e-1f;  //  0x1.8785c6p-2
    p =            -4.38094139e-5f;  // -0x1.6f8000p-15
    q = fmaf (q, c, 1.30382288e+0f); //  0x1.4dc756p+0
    p = fmaf (p, c, 2.16852024e-1f); //  0x1.bc1ceap-3
    q = fmaf (q, c, 1.85278833e+0f); //  0x1.da5056p+0
    p = fmaf (p, c, 7.23953605e-1f); //  0x1.72aa0cp-1
    q = fmaf (q, c, 9.99991655e-1f); //  0x1.fffee8p-1
    p = fmaf (p, c, 1.00000000e+0f); //  0x1.000000p+0
#else // USE_FMA
    q =         3.82346272e-1f; //  0x1.8785c8p-2f
    p =        -4.38243151e-5f; // -0x1.6fa000p-15
    q = q * c + 1.30382371e+0f; //  0x1.4dc764p+0
    p = p * c + 2.16852218e-1f; //  0x1.bc1d04p-3
    q = q * c + 1.85278797e+0f; //  0x1.da5050p+0
    p = p * c + 7.23953605e-1f; //  0x1.72aa0cp-1
    q = q * c + 9.99991596e-1f; //  0x1.fffee6p-1
    p = p * c + 1.00000000e+0f; //  0x1.000000p+0
#endif // USE_FMA
    r = e / q;
    r = r * p;
    if (x < 0.0f) r = 2.0f - r;
    if (isnan(x)) r = x + x;
    return r;
}

float uint32_as_float (uint32_t a)
{
    float r;
    memcpy (&r, &a, sizeof r);
    return r;
}

/* Exponential function. Maximum error 0.86565 ulps */
float my_expf (float a)
{
    float f, r, j, s, t;
    int i;
    unsigned int ia;

    // exp(a) = 2**i * exp(f); i = rintf (a / log(2))
    j = fmaf (1.442695f, a, 12582912.f); // 0x1.715476p0 // log2(e)
    j = j - 12582912.f; // 0x1.8p23 // 2**23+2**22
    f = fmaf (j, -6.93145752e-1f, a); // -0x1.62e400p-1  // log_2_hi 
    f = fmaf (j, -1.42860677e-6f, f); // -0x1.7f7d1cp-20 // log_2_lo 
    i = (int)j;
    // approximate r = exp(f) on interval [-log(2)/2, +log(2)/2]
    r =             1.37805939e-3f;  // 0x1.694000p-10
    r = fmaf (r, f, 8.37312452e-3f); // 0x1.125edcp-7
    r = fmaf (r, f, 4.16695364e-2f); // 0x1.555b5ap-5
    r = fmaf (r, f, 1.66664720e-1f); // 0x1.555450p-3
    r = fmaf (r, f, 4.99999851e-1f); // 0x1.fffff6p-2
    r = fmaf (r, f, 1.00000000e+0f); // 0x1.000000p+0
    r = fmaf (r, f, 1.00000000e+0f); // 0x1.000000p+0
    // exp(a) = 2**i * r
    ia = (i > 0) ? 0 : 0x83000000;
    s = uint32_as_float (0x7f000000 + ia);
    t = uint32_as_float ((i << 23) - ia);
    r = r * s;
    r = r * t;
    // handle special cases: severe overflow / underflow
    if (fabsf (a) >= 104.0f) r = (a < 0) ? 0.0f : INFINITY;
    return r;
}

uint32_t float_as_uint32 (float a)
{
    uint32_t r;
    memcpy (&r, &a, sizeof r);
    return r;
}

uint64_t double_as_uint64 (double a)
{
    uint64_t r;
    memcpy (&r, &a, sizeof r);
    return r;
}

double floatUlpErr (float res, double ref)
{
    uint64_t refi, i, j, err;
    int expoRef;
    
    /* ulp error cannot be computed if either operand is NaN, infinity, zero */
    if (isnan (res) || isnan (ref) || isinf(res) || isinf (ref) ||
        (res == 0.0f) || (ref == 0.0)) {
        return 0.0;
    }
    i = ((int64_t)float_as_uint32 (res)) << 32;
    expoRef = (int)(((double_as_uint64 (ref) >> 52) & 0x7ff) - 1023);
    refi = double_as_uint64 (ref);
    if (expoRef >= 129) {
        j = (refi & 0x8000000000000000ULL) | 0x7fffffffffffffffULL;
    } else if (expoRef < -126) {
        j = ((refi << 11) | 0x8000000000000000ULL) >> 8;
        j = j >> (-(expoRef + 126));
        j = j | (refi & 0x8000000000000000ULL);
    } else {
        j = ((refi << 11) & 0x7fffffffffffffffULL) >> 8;
        j = j | ((uint64_t)(expoRef + 127) << 55);
        j = j | (refi & 0x8000000000000000ULL);
    }
    err = (i < j) ? (j - i) : (i - j);
    return err / 4294967296.0;
}

int main (void)
{
    uint32_t argi, resi, refi, diff;
    float arg, res, reff, abserrloc = NAN, relerrloc = NAN, ulperrloc = NAN;
    double ref, relerr, abserr, ulperr;
    double maxabserr = 0, maxrelerr = 0, maxulperr = 0;

    argi = 0;
    do {
        arg = uint32_as_float (argi);
        ref = erfc ((double)arg);
        res = fast_erfcf (arg);
        reff = (float)ref;
        resi = float_as_uint32 (res);
        refi = float_as_uint32 (reff);
        ulperr = floatUlpErr (res, ref);
        if (ulperr > maxulperr) {
            ulperrloc = arg;
            maxulperr = ulperr;
        }
        abserr = fabs (res - ref);
        if (abserr > maxabserr) {
            abserrloc = arg;
            maxabserr = abserr;
        }
        if (fabs (ref) >= 0x1.0p-126) {
            relerr = fabs ((res - ref) / ref);
            if (relerr > maxrelerr) {
                relerrloc = arg;
                maxrelerr = relerr;
            }
        }
        diff = (resi > refi) ? (resi - refi) : (refi - resi);
        if (diff > 200) {
            printf ("diff=%u @ %15.8e : res=% 15.8e  ref=% 15.8e
", 
                    diff, arg, res, ref);
            return EXIT_FAILURE;
        }
        argi++;
    } while (argi);

    printf ("max rel err = %.6e @ % 15.8e
"
            "max abs err = %.6e @ % 15.8e
"
            "max ulp err = %.6e @ % 15.8e
",
            maxrelerr, relerrloc, 
            maxabserr, abserrloc,
            maxulperr, ulperrloc);
    return EXIT_SUCCESS;
}

coobird · Answer

原作者评论指出，在评估性能测试时使用的范围是0.0至10.5，步长为1 ULP（最小浮点数单位）。考虑到大约40%的float值在[-1.6e-08, +1.6e-08]范围内会使erfc(x)函数返回约1.0，可以在代码中加入以下优化：

float fast_erfcf(float x) {
  if (fabsf(x) <= 1.60e-8) {  // 或者可能是更大一点的范围
    return 1.0;
  }
  ...
}

鉴于大量float值在erfc(x)中的结果为1.0，建议在计算开始阶段就做这个前置判断。

这样做的优点包括：

对于大约40%的所有float值，计算速度大大加快；
当x接近0时，预期erfc(x)应返回1.0。OP当前实现的fast_erfcf(0.0)返回1.00000834，虽然在容忍的大ULP范围内是可接受的，但直接返回1.0更为理想；
当x为较小负值时，OP实现的fast_erfcf返回0.999991536，同样在大ULP范围内是可接受的，然而从数值稳定性角度考虑，通常期望erfc(x)随着x向正无穷方向增大而单调递减。

另外，建议针对最感兴趣的值在[0.1, 10.0]范围内进行性能测试。

注：由于上述建议对OP帮助不大，故移至答案底部。

除了使用my_expf(float a)计算e^x之外，还可以考虑用类似my_exp2f(float a)计算2^x。（这将影响有理函数中的常数）

实际上，这意味着代码中j = fmaf(1.442695f, a, 12582912.f);这一行会被移除。

基于2的指数运算相比基于e的指数运算稍微简单一些。

估计这样做可以使代码运行速度提高几个百分点（约3%左右），但对ULP结果的影响不会很大。

虽然这是一个微观优化，但它实际上无需增加链接答案中方法的复杂性，因此可以说是“免费”的优化。

mm8 · Answer

要实现具有较高性能且在整个输入域内相对精度约为5位小数的erfcf()函数，可以采取以下步骤：

处理特殊值：确保erfcf(0.0f)返回确切的1.0f，遵循最少惊讶原则。当使用分子分母均为1.0的有理多项式时，很容易满足这个要求。
利用线性区域：大约45%的float类型的x值使得erfc(x)可以用简单的线性方程精确表示。可以编写如下代码：

#define TWO_OVER_ROOT_PI 1.1283791670955125738961589031215f
#define ERFC_SMALL 0.0053854f

float fast_erfcf_alt(float x) {
  if (fabsf(x) < ERFC_SMALL) {
    return 1.0f - TWO_OVER_ROOT_PI * x;
  }
  // 对较大x值的有理多项式逼近代码...
}

定义性能指标：可以选择以最坏情况下的性能为基准，即所有float x值中最慢的计算时间。不过，根据实际需求，也可以关注从x = 0.0到erfc(x)接近0.0（大约在x == 10附近）这个区间内的线性进度性能表现。
结合提议的改进：在原始答案的基础上合并上述思想，并针对不同范围使用不同的逼近策略。例如，使用一个线性公式处理接近0的小值，使用有理多项式处理较大的值。
评估性能：使用基准测试工具来评估不同实现的性能，比如对比C库内置的erfcf()函数以及其他自定义实现的时间消耗。
优化过渡区：如果需要进一步提高精度，可能需要在有理多项式和线性区域之间找到一个恰当的过渡点，以确保两者相接处的误差最小。

总结：以上分析和示例代码展示了如何结合线性近似和有理多项式逼近来实现高性能的erfcf()函数，同时保持约5位小数的相对精度。注意，对于亚正常范围内的结果，很难达到较低的相对精度。通过可视化误差分布图，有助于更好地理解误差的发展趋势并进行相应的优化。

Joop Eggen · Answer

我必须说，erfc(x)比我预期的更难以对付，但现在我终于找到了一个更快、稍微复杂一点但精度提高了两倍的解决方案。尽管如果@njuffa切换到内部双精度算术，这种速度优势可能会丧失。我会开启另一个话题讨论速度问题，因为关于FMA代码执行时间的一些奇特现象我实在无法理解。

测试是在OP的测试框架中进行的，我对框架做了个小改动以便每次运行都能计时。

为了得到解决方案，我不得不修改了我的ARM Remez代码版本，并使用自定义权重来确保在高范围端误差降到足够低。顺便提一下，将范围稍微缩小到10.0（或者根据@chux的图表，可能低至9.5）就可以实现完整的五位有效数字相对误差精度。

我拟合为有理函数P(x)/Q(x)的是：

(erfc(x)/exp(-x²)-1)/x （排除x==0的情况）

通过修改后的ARM Remez代码得到的正式解为：

iter = 6, maxerr = 3.28148019434200456568158011254156762066636830e-06
(1.0+x(0.8991604049044439664180350803894074305+
x(0.2900325421849880048302980017673262815200+
x(-6.0399785602952803731803658009133843823e-06))))
/(-0.886123058281072972284447446285224409290+
x(-1.58327531146239316863922987677501888438287+
x(-1.065217231856749807713459915046806520098096+
x(-0.28983820234089701058660284313744428693980)))

系数计算到80位数字后被截断到指示的精度。

由此产生的代码保留了双精度数字的系数，但由编译器截断为浮点数。我还没能获取一个纯单精度实现（尽管这可能是可能的）。可能也没有这个必要，因为双精度其实更快！

该函数的精度并未完全达到Remez算法预测的程度，但我没有花时间去寻找更好的系数集。最终得到的C函数如下：

float d_fast_erfcf(float x)  
   // 计算完全在双精度下进行以消除舍入误差
   // 系数声明为float类型（去掉尾部的f即可得到double类型）
{
   double a, e, r, s, c, p, q;
   a = fabs(x);
   c = fmin(a, 10.5);
   s = -c * c;
   e = exp(s);

   p = 1.0f + c * (0.89916040490444396641803508f + c * (0.29003254218498800483029800f + c * (-6.039978560295280373180365800e-06f)));
   q = -0.88612305828107297228444744628522f + c * (-1.5832753114623931686392298767750f + c * (-1.0652172318567498077134599150f + c * (-0.2898382023408970105866028431f)));
   r = e * (1+ c * p / q);

   if (x < 0.0) r = 2.0 - r;
   if (isnan(x)) r = x + x;
   return (float) r;
}

使用Microsoft Visual C++ 2022进行测试的结果表明：

纯单精度实现效果不佳
使用双精度算术和浮点系数的实现是最优选择

希望这为您提供了一组新的系数供您尝试。我很想知道您的有理Remez优化器对此函数能得到什么样的结果。此外，还有一个有趣的现象是Intel使用简洁的FMA指令，而Microsoft使用分开的乘法和加法操作，但在这里后者似乎运行得更快。

Reto Meier · Answer

这有点晚了，但相当有趣。我正在逐步熟悉Linux下的GCC编译器，并最终将你的测试框架和我各种尝试的代码与系统自带的erfc()和erfcf()函数作为参考一起编译：

GCC -mavx2 -march=native -O2

有一个巨大的惊喜！GCC系统库中的erfcf()居然是所有实现中最快的一个。它的精度高出一个数量级，而且比自定义代码快25%！当启用-ffast-math选项时，它甚至还能再快大约10%。

我很好奇他们是怎么做到这一点的？