これ地味にむずいかもって事例に遭遇した。

ページネーションされているウェブサイトにて
1ページ毎に(日付、値)の形式で何行か表示されていて
(日付、値)だけをスクレイピングするとする

例えばこんな感じ
1ページ目
2023/01/26(木) 22:54:11、1
2023/01/26(木) 22:53:30、2
2023/01/26(木) 22:52:08、1
2ページ目
2023/01/26(木) 22:51:04、1
2023/01/26(木) 22:51:04、2
2023/01/26(木) 22:50:23、1

問題は、
スクレイピング中に、ウェブサイト側がデータを更新した場合
同じ日付を重複して収集してしまう可能性があること。
同じ日付時刻なこと自体は間違いではなく正常なので
ウェブサイトの更新時によるズレなのか、単に同じ日付時刻のデータなのか
を判別する処理が難しいというか、単純であればあるほど
常に最新データを収集するとかでない限り不可能な気がした