在Pandas中，为连续行计算总数并在额外列中得到答案。

Question

我尝试在额外的一列中获取连续行的数量。

示例：我想要得到的结果如下：

class    consecutive_count
a         3
a         3
a         3
b         2
b         2
c         1
d         1 
e         3
e         3
e         3
f         1
a         1
c         1
d         2
d         2

我目前的最佳尝试是：

使用 df['consecutive_count'] = df.groupby('class')['class'].transform('count')，但这会给出整个数据框中每类的总数，而不是连续行数：

class    consecutive_count
a         4
a         4
a         4
b         2
b         2
c         2
d         3 
e         3
e         3
e         3
f         1
a         4
c         2
d         3
d         3

使用 cumsum：df['consecutive-count'] = (df['class'] != df['class'].shift()).cumsum()，这种方法可以对连续行进行分组：

class    consecutive_count
a         1
a         1
a         1
b         2
b         2
c         3
d         4 
e         5
e         5
e         5
f         6
a         7
c         8
d         9
d         9

我真的不知道该如何解决这个问题。

Joshua Ulrich · Answer

当当前类别与前一个类别相同时，赋予相同的组ID：

gid = df['class'].ne(df['class'].shift()).cumsum()
df['consecutive_count'] = df.groupby(gid).transform('size')

输出结果：

>>> df
   class  consecutive_count
0      a                  3
1      a                  3
2      a                  3
3      b                  2
4      b                  2
5      c                  1
6      d                  1
7      e                  3
8      e                  3
9      e                  3
10     f                  1
11     a                  1
12     c                  1
13     d                  2
14     d                  2

中间计算结果：

>>> gid
0     1  # 当前的 'a' 类别不同于 None（第一个值）
1     1
2     1
3     2  # 'b' 类别不同于 'a'
4     2
5     3  # 'c' 类别不同于 'b'
6     4  # 'd' 类别不同于 'c'
7     5  # 'e' 类别不同于 'd'
8     5
9     5
10    6  # 'f' 类别不同于 'e'
11    7  # 'a' 类别不同于 'f'
12    8  # 'c' 类别不同于 'a'
13    9  # 'd' 类别不同于 'c'
14    9
Name: class, dtype: int64

Darrel Miller · Answer

你的第二次尝试已经接近正确答案了。

df['consecutive_count'] = df.groupby(['class', (df['class'] != df['class'].shift()).cumsum()]).transform('size')

   class  consecutive_count
0      a                  3
1      a                  3
2      a                  3
3      b                  2
4      b                  2
5      c                  1
6      d                  1
7      e                  3
8      e                  3
9      e                  3
10     f                  1
11     a                  1
12     c                  1
13     d                  2
14     d                  2