撮影時に深度情報も記録しておけば
少なくともある程度は6DoFが可能になる理屈だな
再生時にかなり高度な処理、さらにはAIによる補間なんかも必要になるが
AppleのVision Proはこれやってるんじゃないかと思ってるけど未確認