检查列中的值是否为列表类型

Question

我有一个包含两列field和value的数据框，正在进行对每个字段值的检查。对于field a，我需要检查其对应的值始终为list类型，并将结果存储在status列中。

以下是您提供的代码：

import pandas as pd
from pandas.api.types import is_list_like

data = {
    "field": ["a", "b", "c"],
    "value": [[1, "na", -99], 20, 80],
}

df = pd.DataFrame(data)

print("初始数据框")
print(f"{df=}")

condlist = [df["field"] == "a", df["field"] == "b", df["field"] == "c"]

choicelist = [
    df["value"].apply(is_list_like).any(),
    df["value"].isin([10, 20, 30, 40]),
    df["value"].between(50, 100), # 这里存在问题
]

df["status"] = np.select(condlist, choicelist, False)

print("检查后的数据框")
print(f"{df=}")

您遇到的错误是：

df["value"].between(50, 100),
^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "pandas/_libs/ops.pyx", line 107, in pandas._libs.ops.scalar_compare
TypeError: '>=' not supported between instances of 'list' and 'int'

我漏掉了什么？

moonshadow · Answer

你可以通过尝试对df["value"]列应用pd.to_numeric函数，将其中所有非数值类型的值转换为None。这样一来，between方法就不会抛出错误，并且状态会得到正确的更新。

choicelist = [
    df["value"].apply(is_list_like).any(),
    df["value"].isin([10, 20, 30, 40]),
    pd.to_numeric(df["value"], errors='coerce').between(50, 100),
]

然而，如果可能的话，值得重新考虑一下数据结构，尽量让每列只存储一种数据类型。

juanchopanza · Answer

您可以按照以下方式修改代码片段：

import pandas as pd
import numpy as np
from pandas.api.types import is_list_like

data = {
    "field": ["a", "b", "c"],
    "value": [[1, "na", -99], 20, 80],
}

df = pd.DataFrame(data)

condlist = [df["field"] == "a", df["field"] == "b", df["field"] == "c"]

def apply_between(element, lower, upper):
    if isinstance(element, (int, float)):
        return lower <= element <= upper
    return False  # 或者根据需求返回其他默认值

choicelist = [
    df["value"].apply(is_list_like),
    df["value"].isin([10, 20, 30, 40]),
    df["value"].apply(lambda x: apply_between(x, 50, 100))
]

df["status"] = np.select(condlist, choicelist, False)

print("检查后的数据框")
print(f"{df=}")

# 输出：
# 检查后的数据框
# df=   field         value  status
# 0     a  [1, na, -99]   True
# 1     b            20  False
# 2     c            80   True