📊 システムフロー

1. カメラ起動
Webカメラから映像を取得
2. MediaPipe処理
手のランドマーク21個を検出
3. ジェスチャー認識
グー、チョキ、パーを判定
4. 3D空間に反映
ジェスチャーに応じてメディアを操作
5. レンダリング
Three.jsで3D空間を描画
ボタンを押してフローを開始