将包含字典列表的DataFrame创建为新的DataFrame

Question

我正在尝试获取输出的 DataFrame，但在解包数据并将其转换为 DataFrame 方面无法确定合适的方法。

输入 DataFrame：

stats = [
    [{'city': None, 'last_time': 1234567}],
    [],
    [{'city': 'Seattle', 'last_time': 45678999876}]
]

期望输出：

城市       最后时间
None       1234567
NA         NA
Seattle    45678999876

尝试过的代码：

data = pd.DataFrame(stats)
data = pd.DataFrame(data["stats"])

对于这个问题，任何指导或帮助都将不胜感激。

The fourth bird · Answer

尝试按照以下方式操作：

import pandas as pd

data = {
    "stats": [
        [{'city': None, 'last_time': 1234567}],
        [],
        [{'city': 'Seattle', 'last_time': 45678999876}]
    ]
}

# 创建一个初始 DataFrame
df = pd.DataFrame(data)

# 初始化一个空列表，用于存放转换后的数据
output_data = []

# 遍历原始 DataFrame 中的 'stats' 列
for row in df['stats']:
    # 如果行内容为空，则添加 NA 值
    if not row:
        output_data.append({'city': 'NA', 'last_time': 'NA'})
    # 否则将字典中的 city 和 last_time 添加到输出列表中
    else:
        output_data.append({'city': row[0]['city'], 'last_time': row[0]['last_time']})

# 将处理过的数据转换为新的 DataFrame
output_df = pd.DataFrame(output_data)

# 输出最终结果
print(output_df)

执行上述代码后，将会得到以下输出结果：

      city    last_time
0     None      1234567
1       NA           NA
2  Seattle  45678999876

Ben Hoffstein · Answer

由于存在 NaN 值，上述构造方法会失败。这里提供一个使用 pandas 中 str/Series方法的可能解决方案：

out = df["stats"].str[0].apply(pd.Series).drop(0, axis=1)

或者采用如下方式：

stats = df["stats"].str[0]
templ = dict.fromkeys(["city", "last_time"], pd.NA)  # 使用 pd.NA 替换 None

out = stats.where(stats.notnull(), templ).apply(pd.Series)

输出结果为：

print(out)

      city      last_time
0          1234567.00
1                 NaN
2  Seattle 45678999876.00

[3 rows x 2 columns]

使用的输入数据为：

import pandas as pd
df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

Hooked · Answer

如果这是你想要的答案：

输入数据框

import pandas as pd

data = [[{'city': None, 'last_time': 1234567}],
        [],
        [{'city': 'Seattle', 'last_time': 45678999876}]]

df = pd.DataFrame(data)
df

输出：

                                               0
0           {'city': None, 'last_time': 1234567}
1                                           None
2  {'city': 'Seattle', 'last_time': 45678999876}

将字典列展开为单独的列

df[0].apply(pd.Series)

      city     last_time
0      NaN  1.234567e+06
1      NaN           NaN
2  Seattle  4.567900e+10

那么这个问题就是关于如何使用 pandas 将字典列拆分为单独列的一个重复问题，它与以下链接的问题相同：在 pandas 中将包含字典的列拆分成多个独立列。

Michael Berkowski · Answer

使用 pandas 中的 explode 和 pd.json_normalize方法：

>>> pd.json_normalize(df['stats'].explode())

      city     last_time
0     None  1.234567e+06
1      NaN           NaN
2  Seattle  4.567900e+10

相比于 apply(pd.Series)，pd.json_normalize 在处理速度上更快：

>>> %timeit pd.json_normalize(df['stats'].explode())
269 µs ± 17.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

>>> %timeit df["stats"].str[0].apply(pd.Series)
959 µs ± 5.79 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

输入数据与 @Timeless 提供的一致。