创建一个新列，通过在满足特定条件时重置另一列的cummin()函数值。

Question

我已将您的问题翻译成中文，方便您理解：

这是我的DataFrame：

import pandas as pd 

df = pd.DataFrame(
    {
        'a': [98, 97, 100, 135, 103, 100, 105, 109, 130],
        'b': [100, 103, 101, 105, 110, 120, 101, 150, 160]
    }
)

这是我想要得到的输出结果，即创建列c：

     a    b    c
0   98  100  100
1   97  103  100
2  100  101  100
3  135  105  100
4  103  110  110
5  100  120  110
6  105  101  101
7  109  150  150
8  130  160  150

描述这个问题比较复杂。c 列的值基于 df.b.cummin()，但在某些条件下会发生变化。逐行解释规则：

首先设置：

df['c'] = df.b.cummin()

改变 c 的条件是：

cond = df.a.shift(1) > df.c.shift(1)

当 cond == True 时，对于这些行，df.c 应该等于 df.b 的当前值，并且从这一行开始，b 的 cummin() 重新计算。

例如，第一个满足条件的位置在第4行，所以 c 变为110（即等于 b 的值）。然后对第5行而言，它的 c 是从第4行开始的 b 的 cummin() 值。以此类推至最后一行。

以下是您的尝试之一，但在 cond 条件生效的地方不起作用：

df['c'] = df.b.cummin()
df.loc[df.a.shift(1) > df.c.shift(1), 'c'] = df.b

注：

目前采纳的答案适用于这个示例，但对于您的实际大数据集可能无法得到预期结果。目前还未找到其中的问题所在。

然而，我非常喜欢这个答案，它对我而言既简单又有效。尽管未更改采纳答案，因为它提供了向量化解决方案。

Joe Kington · Answer

代码：

我尚未找到实现向量化操作的方法。尝试使用 while 循环：

df['c'] = None
while df['c'].isna().sum() > 0: 
    df2 = df[df['c'].isna()]
    s = df2['a'].gt(df2['b'].cummin()).shift(1).fillna(0).cumsum()
    idx = df2[s.eq(0)].index
    df.loc[idx, 'c'] = df.loc[idx, 'b'].cummin()

输出结果：

     a    b    c
0   98  100  100
1   97  103  100
2  100  101  100
3  135  105  100
4  103  110  110
5  100  120  110
6  105  101  101
7  109  150  150
8  130  160  150

中间过程：

while 循环第一次运行时的结果：

       df
    a   b   c           s
0   98  100 100         0
1   97  103 100         0
2   100 101 100         0
3   135 105 100         0
4   103 110 None        1
5   100 120 None        2
6   105 101 None        2
7   109 150 None        3
8   130 160 None        4

skaffman · Answer

我不知道是否可以将此操作向量化，但至少在纯 Python 中实现起来很简单，并且时间复杂度为 O(n)。

# 条件累加最小值
k = None  # 用于首次循环
c = []
for b, a_prev in zip(df['b'], df['a'].shift()):
    if k is None or b < k or a_prev > k:
        k = b
    c.append(k)

df.assign(c=c)

输出结果：

     a    b    c
0   98  100  100
1   97  103  100
2  100  101  100
3  135  105  100
4  103  110  110
5  100  120  110
6  105  101  101
7  109  150  150
8  130  160  150

如果对性能有较高要求，您可以考虑使用Cython 或 Numba进行优化。

Panagiotis Kanavos · Answer

我理解您需要的解决方案是：

m1 = df["b"].le(df["a"].shift())

cm = df["b"].groupby(m1.cumsum()).cummin()

m2 = (df["b"].le(cm) | df["a"].shift().le(cm.shift()))

df["c"] = cm.where(m2, df["b"].mask(m2).cummin())

输出结果（包括中间步骤）：

     a    b    c    a_s     m1   cm     m2    c
0   98  100  100    NaN  False  100   True  100
1   97  103  100  98.00  False  100   True  100
2  100  101  100  97.00  False  100   True  100
3  135  105  100 100.00  False  100   True  100
4  103  110  110 135.00   True  110   True  110
5  100  120  110 103.00  False  110   True  110
6  105  101  101 100.00  False  101   True  101
7  109  150  150 105.00  False  101  False  150
8  130  160  150 109.00  False  101  False  150

[9 rows x 8 columns]