Pythonのお勉強 Part73

2024/09/17(火) 10:56:23.24

複数のエクセルファイルから特定列のデータを抜き出して
新たにエクセルファイルにまとめて書き出すということをしたのですが、
複数ファイルには重複する行が含まれていて、
下記の2つを試したのですがどちらも欠損データが生じました。

1.listに一旦全部入れて、最終的にsetに一旦変換してlistに戻す
2.1行ごとに最終的なリストに含まれていない要素をチェックしながら追加

データは5列で最終的に重複処理したもので300行程度、
重複処理前でも2000行余りぐらいのデータです。
最終的にpandasで全部一旦追加した後df.drop_duplicates()にて処理して問題なく処理されたのですが
下記の方法で欠損することとかあり得るのでしょうか？