将名字分开到各自的列中（在Python中）

Question

我有一个数据集，需要将姓名拆分为“名”、“中间名”和“姓”，但遇到的问题是，在某些情况下，人们可能有两个中间名或空格导致名字更长。
这是我的样本数据：

name
John Smith
Jack A Doe
Jane Marie Jones Smith

我发现可以使用 df[['firstname','middlename','middlename1','lastname']] = df['name'].str.split(expand=True) 来进行拆分，然后通过逻辑将中间名合并在一起，这种方法有效。但是，当文件更新后，如果出现像 Josh Jacob Jingle Heimer Schmidt 这样拥有五个名字的人时，就会抛出一个 ValueError 错误，提示“Columns must be same length as key.”，因为我没有考虑到这种情况。

我尝试了以下方法：

name_parts = df['name'].str.split(expand = True)
df['first_name'] = name_parts[0]
df['last_name'] = name_parts.iloc[:,1]
df['middle_name'] = name_parts.iloc[:,1:-1].apply(lambda row:" ".join(row.dropna()), axis = 1)

但这样操作后，我只得到了姓氏。期望的输出结果应该如下所示：

first_name       middle_name            last_name 
John                                    Smith
Jack                A                   Doe
Jane           Marie Jones              Smith
Josh          Jacob Jingle Hiemer       Schmidt

如果您能提供帮助，我将非常感激。谢谢！

Paulie_D · Answer

您可以尝试使用以下正则表达式模式（参见链接：https://regex101.com/r/JpHAf9/1）：

pat = r'(?P[^\s]+)\s+(?:(?P.*)?\s)?(?P[^\s]+)'
out = df['name'].str.extract(pat).fillna('')

输出结果为：

>>> out
  first_name          middle_name last_name
0       John                          Smith
1       Jack                    A       Doe
2       Jane          Marie Jones     Smith
3       Josh  Jacob Jingle Hiemer   Schmidt

Amelio Vazquez-Reina · Answer

您可以创建一个自定义函数，用于将姓名分割成名、中间名和姓。然后使用apply方法调用该函数。

def get_name(x):
    # 将姓名按空格拆分成列表
    data = x['name'].split()
    
    # 根据姓名组成部分的数量进行不同的处理
    if len(data) == 1:
        return x, '', ''
    elif len(data) == 2:
        return data[0], '', data[1]
    else:
        return data[0], ' '.join(data[1:-1]), data[-1]

# 对DataFrame的每一行应用上述函数，并将结果分别赋值给新的列
df[['first_name', 'middle_name', 'last_name']] = df.apply(get_name, axis=1, result_type='expand')

输出结果如下：

                               name first_name          middle_name last_name
0                        John Smith       John                          Smith
1                        Jack A Doe       Jack                    A       Doe
2            Jane Marie Jones Smith       Jane          Marie Jones     Smith
3  Josh Jacob Jingle Hiemer Schmidt       Josh  Jacob Jingle Hiemer   Schmidt

spickermann · Answer

另一种不使用正则表达式的方法：

df["first_name"] = (tmp := df["name"].str.split()).str[0]
df["middle_name"] = tmp.str[1:-1].str.join(" ")
df["last_name"] = tmp.str[-1]

print(df)

执行这段代码后，输出结果将是：

                     name first_name  middle_name last_name
0              John Smith       John                  Smith
1              Jack A Doe       Jack            A       Doe
2  Jane Marie Jones Smith       Jane  Marie Jones     Smith

Ryan Stewart · Answer

我推测你的原始数据框是这样初始化的：

import pandas as pd

df = pd.DataFrame({'name': ['John Smith',
                            'Jack A Doe',
                            'Jane Marie Jones Smith',
                            'Josh Jacob Jingle Hiemer Schmidt']})  # 等等

这将生成以下输出：

                               name
0                        John Smith
1                        Jack A Doe
2            Jane Marie Jones Smith
3  Josh Jacob Jingle Hiemer Schmidt

你可以遍历姓名列表，并将每个姓名拆分为由空格分隔的部分（就像你之前使用的 name_parts = df['name'].str.split(expand = True) 那样）。

然后利用Python列表索引和切片，将列表的第一项（索引为 [0]）、最后一项（索引为 [-1]）以及两者之间的所有项（切片 [1:-1]）分离出来。

new_df = {'first_name': [],
          'middle_name': [],
          'last_name': []}

for name in df['name']:
    name_parts = name.split(" ")

    new_df['first_name'].append(name_parts[0])  # 第一部分
    new_df['last_name'].append(name_parts[-1])  # 最后一部分
    
    middle_names = ' '.join(name_parts[1:-1])  # 中间的所有部分
    new_df['middle_name'].append(middle_names)

new_df = pd.DataFrame(new_df)

最终得到的输出是：

  first_name         middle_names last_name
0       John                          Smith
1       Jack                    A       Doe
2       Jane          Marie Jones     Smith
3       Josh  Jacob Jingle Hiemer   Schmidt

如果你希望打印时不显示右侧的索引，可以使用 print(df.to_string(index=False)) 。