リップシンクの実装方法は画一的なアセットとかあればそれを使えばと思うけど、自分は独自に実装した

FBXモデルには「あ」「い」「う」「え」「お」のBlendShapeがある前提
AnimationClipとAnimatorで「あ」〜「お」のアニメーション遷移を定義
C#スクリプトで再生中の音声ファイルを読み取って「あ」〜「お」のアニメーションを適宜再生する実装をする
みたいな