合并后包含旧pandas数据框

Question

我正在使用这段代码从许多不同的文件生成一个合并后的数据帧。但是，最终生成的“merged_data”数据帧并未包含原始数据帧“df”中的所有列。有没有办法将“df”中的所有列都包含到最终生成的“merged_data”中？

import pathlib
import pandas as pd

root_path = pathlib.Path('root')  # use pathlib instead of os.path

data = {}
# use enumerate rather than create an external counter
for count, (_, row) in enumerate(df.iterrows(), 1):
    folder_name = row['File ID'].strip()
    file_name = row['File Name'].strip()
    file_path = root_path / folder_name / file_name
    folder_file_id = f'{folder_name}_{file_name}'

    file_data = pd.read_csv(file_path, header=None, sep='	',
                            names=['Case', folder_file_id],
                            memory_map=True, low_memory=False)
    data[folder_file_id] = file_data.set_index('Case').squeeze()
    print(count)

merged_data = (pd.concat(data, names=['folder_file_id'])
                 .unstack('Case').reset_index())

Joris Meys · Answer

在您的代码中，您在合并数据时用最后导入的文件中的列覆盖了已存在的列。您可以按照如下方式包含所有想要的列：

import pathlib
import pandas as pd

# 使用pathlib代替os.path来处理路径
root_path = pathlib.Path('root')

# 初始化一个字典用于存储数据
data = {}

# 在循环中使用enumerate直接获取行索引和行内容，避免创建外部计数器
for count, (_, row) in enumerate(df.iterrows(), 1):
    # 提取文件夹名和文件名
    folder_name = row['File ID'].strip()
    file_name = row['File Name'].strip()
    # 构造文件路径
    file_path = root_path / folder_name / file_name
    # 创建一个表示特定文件的唯一标识符
    folder_file_id = f'{folder_name}_{file_name}'

    # 读取文件内容并设置列名，同时将'Case'列设为索引
    file_data = pd.read_csv(file_path, header=None, sep='	',
                            names=['Case', folder_file_id],
                            memory_map=True, low_memory=False)
    # 将读取的数据存入字典，以folder_file_id为键
    data[folder_file_id] = file_data.set_index('Case').squeeze()
    print(count)

# 创建一个新的DataFrame，包含原始'df'中你想要保留的所有列
df_columns = df[['File ID', 'File Name', ...]]  # 在这里添加你希望保留的所有列名

# 合并原始'df'的列和从文件中读取的数据，并将结果转换为多级索引形式
merged_data = (pd.concat([df_columns] + list(data.values()), axis=1)
                 .set_index(['File ID', 'File Name'])  # 设置多级索引
                 .stack()  # 转换为层叠格式
                 .reset_index())  # 重置索引以便于后续操作

# 如果你希望使用'folder_file_id'作为索引，可以使用以下代码替换上面一行
# merged_data = (pd.concat([df_columns] + list(data.values()), axis=1)
#                  .set_index('folder_file_id')
#                  .stack().reset_index())

在通过原始DataFrame的列创建数据帧时，添加所需的列。

fl00r · Answer

您需要先对df的索引应用pandas.DataFrame.set_axis方法设置到merged_data上，然后再使用pandas.DataFrame.join方法将两个DataFrame连接起来：

import pathlib
import pandas as pd

root_path = pathlib.Path('root')  # 使用pathlib替代os.path

data = {}
# 使用内置的enumerate函数而非创建外部计数器
for count, (_, row) in enumerate(df.iterrows(), 1):
    folder_name = row['File ID'].strip()
    file_name = row['File Name'].strip()
    file_path = root_path / folder_name / file_name
    folder_file_id = f'{folder_name}_{file_name}'

    file_data = pd.read_csv(file_path, header=None, sep='	',
                            names=['Case', folder_file_id],
                            memory_map=True, low_memory=False)
    data[folder_file_id] = file_data.set_index('Case').squeeze()
    print(count)

merged_data = df.join(pd.concat(data, names=['folder_file_id'])
                        .unstack('Case').set_axis(df.index))

输出结果：

>>> merged_data
   File ID    File Name       0       1       2       3       4
0  folderA  file001.txt  1234.0  5678.0  9012.0  3456.0  7890.0
1  folderB  file002.txt  4567.0  8901.0  2345.0  6789.0     NaN

输入数据与我之前的答案相同：

>>> df
   File ID    File Name
0  folderA  file001.txt
1  folderB  file002.txt