📊 データ加工パイプライン

1. 生データ読み込み
JSON形式のデータセット(約3,000件)
2. データ分類
論文データと識別形質データに分類
3. 質問文生成
各データから質問文を作成
4. Gemma-3形式変換
<start_of_turn>タグで会話を区切る
5. 検証
形式が正しいか確認
6. 保存
学習用データとして保存
ボタンを押してフローを開始