{
  "scenario_id": "support_mdp_v1",
  "description": "Decidir si un asistente interno debe pedir evidencia, responder o escalar una solicitud.",
  "states": [
    "nuevo",
    "evidencia",
    "critico",
    "resuelto",
    "reabierto"
  ],
  "terminal_states": [
    "resuelto",
    "reabierto"
  ],
  "actions": {
    "nuevo": [
      "pedir_dato",
      "responder_directo",
      "escalar"
    ],
    "evidencia": [
      "responder_con_cita",
      "escalar"
    ],
    "critico": [
      "escalar",
      "responder_directo"
    ]
  },
  "transitions": {
    "nuevo": {
      "pedir_dato": [
        {
          "reward": -0.2,
          "next_state": "evidencia",
          "probability": 0.78
        },
        {
          "reward": -0.2,
          "next_state": "nuevo",
          "probability": 0.17
        },
        {
          "reward": -0.4,
          "next_state": "critico",
          "probability": 0.05
        }
      ],
      "responder_directo": [
        {
          "reward": 1.0,
          "next_state": "resuelto",
          "probability": 0.52
        },
        {
          "reward": -1.3,
          "next_state": "reabierto",
          "probability": 0.35
        },
        {
          "reward": -0.6,
          "next_state": "critico",
          "probability": 0.13
        }
      ],
      "escalar": [
        {
          "reward": 0.35,
          "next_state": "resuelto",
          "probability": 0.86
        },
        {
          "reward": -0.25,
          "next_state": "reabierto",
          "probability": 0.14
        }
      ]
    },
    "evidencia": {
      "responder_con_cita": [
        {
          "reward": 2.0,
          "next_state": "resuelto",
          "probability": 0.9
        },
        {
          "reward": -1.0,
          "next_state": "reabierto",
          "probability": 0.1
        }
      ],
      "escalar": [
        {
          "reward": 0.45,
          "next_state": "resuelto",
          "probability": 0.92
        },
        {
          "reward": -0.15,
          "next_state": "reabierto",
          "probability": 0.08
        }
      ]
    },
    "critico": {
      "escalar": [
        {
          "reward": 0.7,
          "next_state": "resuelto",
          "probability": 0.88
        },
        {
          "reward": -0.5,
          "next_state": "reabierto",
          "probability": 0.12
        }
      ],
      "responder_directo": [
        {
          "reward": 0.8,
          "next_state": "resuelto",
          "probability": 0.35
        },
        {
          "reward": -2.0,
          "next_state": "reabierto",
          "probability": 0.65
        }
      ]
    }
  }
}