データセット準備コード

def prepare_dataset(qa_pairs):
    # Gemma-3形式に変換
    formatted_data = []
    
    for qa in qa_pairs:
        prompt = f"""<start_of_turn>user
{qa['question']}<end_of_turn>
<start_of_turn>model
{qa['answer']}<end_of_turn>"""
        
        formatted_data.append({
            "text": prompt
        })
    
    return formatted_data

処理の流れ：

1. データの読み込み
質問と回答のペアをリストで受け取ります。

2. Gemma-3形式への変換

各ペアを`<start_of_turn>`タグで囲んで変換します。

3. データの整形

{"text": プロンプト} の形式でリストに追加します。

⚠️ 重要なポイント

この形式に変換しないと、学習が失敗します。Gemma-3専用の形式なので、必ず守る必要があります。

📝 データセット準備コード