使用Python来匹配具有多对多关系的两个文件中的记录

Question

我是Python新手，我在寻找解决这个问题的方法时并未成功。

我有两个CSV文件，分别是文件A和文件B，如下所示样本。

对于文件A中的每一对“PO/ItemCode”，我希望在文件B中找到匹配的组合，并将记录输出到新的CSV文件，即文件C。如果文件B中没有匹配的记录，则向文件C输出一条记录，其中“Ref/Line”字段为'none/00'。例如：PO 1002 和 1005。

如果文件B中匹配记录的可用数量少于文件A所需的数量，则根据可用数量先写入一条文件C记录，然后再次读取文件B以查找下一个匹配记录。一旦没有更多匹配记录，就为文件A中未匹配的数量写入文件C的一条记录。例如：PO 1006。

文件C中每一对“PO/ItemCode”的总数量应与文件A中的组合总数相同。

文件A中可能存在多个相同的“PO/ItemCode”组合。这些应被视为具有累计总数的单个文件A记录。例如：PO 1003。

文件A

PO        ItemCode   Invoice   QtyA
1001      ITEMA      2001      2
1001      ITEMB      2001      1
1002      ITEMB      2002      4
1003      ITEMA      2003      4
1003      ITEMA      2003      5
1004      ITEMA      2004      1
1005      ITEMB      2005      3
1006      ITEMA      2006      5

文件B

PO        ItemCode   QtyB   Ref       Line
1000      ITEMA      2      8232      12
1001      ITEMA      2      8986      15
1001      ITEMB      2      8986      16
1003      ITEMA      7      8987      08
1004      ITEMA      3      8415      19
1006      ITEMA      2      8469      01
1006      ITEMA      1      8253      12
1008      ITEMB      3      8745      03

文件C（输出结果）

PO        ItemCode   Invoice   QtyC     Ref       Line
1001      ITEMA      2001      2        8986      15
1001      ITEMB      2001      1        8986      16
1002      ITEMB      2002      4        none      00
1003      ITEMA      2003      7        8987      08
1003      ITEMA      2003      2        none      00
1004      ITEMA      2004      1        8415      19
1005      ITEMB      2005      3        none      00
1006      ITEMA      2006      2        8469      01
1006      ITEMA      2006      1        8253      12
1006      ITEMA      2006      2        none      00

我尝试通过在一个for循环中读取文件A的记录，使用“PO/ItemCode”作为索引访问DataFrame格式的文件B，但无法匹配文件B中第一个匹配记录之外的其他记录。同时，我也未能找到一种方法来识别具有与前一条记录相同“PO/ItemCode”的文件A记录。

Ates Goral · Answer

希望我对您的问题理解正确：您可以对数据帧A进行分组并求和各数量A，然后遍历数据帧B的行，从总量A中减去数量B：

df_A = df_A.groupby(["PO", "ItemCode"], as_index=False).agg({"Invoice": "first", "QtyA": "sum"})
df_B = df_B.set_index(["PO", "ItemCode"])

out = []
for rowA in df_A.itertuples():
    if (rowA.PO, rowA.ItemCode) not in df_B.index:
        out.append(
            {
                "PO": rowA.PO,
                "ItemCode": rowA.ItemCode,
                "Invoice": rowA.Invoice,
                "QtyC": rowA.QtyA,
                "Ref": None,
                "Line": 0,
            }
        )
        continue

    qty_remaining = rowA.QtyA
    for rowB in df_B.loc[(rowA.PO, rowA.ItemCode)].itertuples():
        if qty_remaining - rowB.QtyB >= 0:
            n = rowB.QtyB
        else:
            n = qty_remaining

        out.append(
            {
                "PO": rowA.PO,
                "ItemCode": rowA.ItemCode,
                "Invoice": rowA.Invoice,
                "QtyC": n,
                "Ref": rowB.Ref,
                "Line": rowB.Line,
            }
        )

        qty_remaining -= n
        if qty_remaining == 0:
            break

    if qty_remaining > 0:
        out.append(
            {
                "PO": rowA.PO,
                "ItemCode": rowA.ItemCode,
                "Invoice": rowA.Invoice,
                "QtyC": qty_remaining,
                "Ref": None,
                "Line": 0,
            }
        )

out = pd.DataFrame(out)
print(out)

这段代码会输出以下内容：

     PO ItemCode  Invoice  QtyC     Ref  Line
0  1001    ITEMA     2001     2  8986.0    15
1  1001    ITEMB     2001     1  8986.0    16
2  1002    ITEMB     2002     4     NaN     0
3  1003    ITEMA     2003     7  8987.0     8
4  1003    ITEMA     2003     2     NaN     0
5  1004    ITEMA     2004     1  8415.0    19
6  1005    ITEMB     2005     3     NaN     0
7  1006    ITEMA     2006     2  8469.0     1
8  1006    ITEMA     2006     1  8253.0    12
9  1006    ITEMA     2006     2     NaN     0

thkala · Answer

这很像Pandas中的左连接操作。我所不理解的一点是，为什么输出的数据框预期会有针对PO 1006的三条记录。

import pandas as pd
fnA, fnB = (the, filenames)
aR, bR = [pd.read_csv(x), delim_whitespace=True) for x in (fnA, fnB)]
cR = aR.merge(bR, how="left") 
print(cR.to_markdown())

| PO    | ItemCode | Invoice | QtyA   | QtyB   | Ref    | Line  |
|-------|----------|---------|--------|--------|--------|-------|
| 1001  | ITEMA    | 2001    | 2      | 2      | 8986   | 15    |
| 1001  | ITEMB    | 2001    | 1      | 2      | 8986   | 16    |
| 1002  | ITEMB    | 2002    | 4      | nan    | nan    | nan   |
| 1003  | ITEMA    | 2003    | 4      | 7      | 8987   | 8     |
| 1003  | ITEMA    | 2003    | 5      | 7      | 8987   | 8     |
| 1004  | ITEMA    | 2004    | 1      | 3      | 8415   | 19    |
| 1005  | ITEMB    | 2005    | 3      | nan    | nan    | nan   |
| 1006  | ITEMA    | 2006    | 5      | 2      | 8469   | 1     |
| 1006  | ITEMA    | 2006    | 5      | 1      | 8253   | 12    |