マルチモーダル感情分析チャレンジ
midori225 で培った顔表情・年齢・感情推定を土台に、音声トーンとジェスチャを足し合わせて 感情推定を多面的に補強するテストベッドです。下のシナリオを切り替えて、各モダリティがどれだけ 最終推定に寄与しているかを比較できます。
midori303 Hybrid Engine - ライブマルチモーダル解析
midori225 をベースに再設計した midori303 コアが、顔モダリティをライブ解析します。 ここで得られる年齢・感情のシグナルを音声トーンやジェスチャと融合し、 モダリティ間の重み付けを検証できるようにしました。
📹 入力ソース
😄 midori303 感情推定
🎙️ 音声トーン
Fallback🕹️ ジェスチャ
Fallback手順: カメラとマイクのアクセスを許可すると midori303 ハイブリッドエンジンが 顔・音声トーン・ジェスチャをリアルタイムで解析します。ライブ解析の値は下のスコアと シナリオに即座に反映されます。
モダリティ重みとフォールバックの調整
midori303 では顔・音声・ジェスチャを個別に重み付けし、最終感情スコアを合成します。 下のスライダーで重みを調整し、ライブ信号が未取得の際に利用するフォールバック値も設定できます。
Face 45% / Voice 30% / Gesture 25% | Voice 0.35 (Fallback) | Gesture 0.40 (Fallback)
モダリティ別スコア
笑顔・眉・視線の指標がここに表示されます。
基本周波数や音量ピークの情報がここに表示されます。
手の開閉や速度・姿勢の指標がここに表示されます。
シナリオ概要
選択したシナリオの状況説明がここに入ります。
合成スコア: -
コメント: -
シナリオ切り替え
タブを切り替えると: ライブ解析では現在のカメラ・マイクから得た値を表示し、その他のタブでは想定シナリオを読み込みます。 参考シナリオを見ながら実際の数値と比較したり、重み付け調整の目安に使ってください。
今回の観測メモ
- 音量ピークやフォルマントの伸びは怒り寄りの判断に効きます。
- 笑顔と高周波の組み合わせが揃うと喜びの信頼度が 0.8 以上へ跳ね上がります。
- ジェスチャの振れ幅が小さい時はニュートラルへ戻りやすく、他のシグナルを優先するよう重み付けしています。