{
  "scenario_id": "routing_modelos_soporte",
  "description": "Secuencia reproducible de recompensas netas para tres rutas de respuesta.",
  "rounds": 30,
  "arms": {
    "modelo_rapido": {
      "cost": 0.05,
      "rewards": [0.62, 0.58, 0.61, 0.57, 0.6, 0.59, 0.63, 0.56, 0.6, 0.58]
    },
    "modelo_fuerte": {
      "cost": 0.18,
      "rewards": [0.78, 0.74, 0.8, 0.76, 0.79, 0.77, 0.81, 0.75, 0.78, 0.76]
    },
    "revision_humana": {
      "cost": 0.7,
      "rewards": [0.7, 0.68, 0.72, 0.69, 0.71, 0.67, 0.7, 0.69, 0.71, 0.68]
    }
  },
  "policies": [
    {"policy_id": "greedy", "description": "Explora cada brazo una vez y luego explota la mejor media observada."},
    {"policy_id": "epsilon_greedy", "epsilon": 0.1, "description": "Explora de forma determinista cada 10 rondas para hacer la simulacion reproducible."},
    {"policy_id": "ucb", "c": 0.8, "description": "Media observada mas bonus de incertidumbre."}
  ]
}