Conv2D に color channels が 3 のカラー画像を食わせたとき、チャンネル 1 のグレイスケール画像と同じでフィルタ数分の結果が出力されます
入力(横、縦、チャンネル)、出力(畳み込み横、畳み込み縦、フィルタ数)
カラー画像のチャンネルはどのように扱われているのか、どこかに書いてないでしょうか?
足し合わせてグレイスケールにしてフィルタが生成されるのでしょうか?

APIではchannels_firstとか指定した場合にはバッチ形状にくっつく様に結果が出力される様に読めますが、その指定は無いので上記の出力です(API仕様書にある通常の例と同じ