{"round": 1, "request_id": "req_001", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.17, "cumulative_reward": 0.6, "cumulative_regret": 0.17}
{"round": 2, "request_id": "req_002", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 1.38, "cumulative_regret": 0.17}
{"round": 3, "request_id": "req_003", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.1, "cumulative_reward": 2.03, "cumulative_regret": 0.27}
{"round": 4, "request_id": "req_004", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 2.84, "cumulative_regret": 0.27}
{"round": 5, "request_id": "req_005", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 3.63, "cumulative_regret": 0.27}
{"round": 6, "request_id": "req_006", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 4.39, "cumulative_regret": 0.27}
{"round": 7, "request_id": "req_007", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 5.19, "cumulative_regret": 0.27}
{"round": 8, "request_id": "req_008", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 5.96, "cumulative_regret": 0.27}
{"round": 9, "request_id": "req_009", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 6.78, "cumulative_regret": 0.27}
{"round": 10, "request_id": "req_010", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 7.56, "cumulative_regret": 0.27}
{"round": 11, "request_id": "req_011", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 8.35, "cumulative_regret": 0.27}
{"round": 12, "request_id": "req_012", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 9.11, "cumulative_regret": 0.27}
{"round": 13, "request_id": "req_013", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 9.88, "cumulative_regret": 0.27}
{"round": 14, "request_id": "req_014", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 10.66, "cumulative_regret": 0.27}
{"round": 15, "request_id": "req_015", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 11.41, "cumulative_regret": 0.27}
{"round": 16, "request_id": "req_016", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 12.22, "cumulative_regret": 0.27}
{"round": 17, "request_id": "req_017", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 13.01, "cumulative_regret": 0.27}
{"round": 18, "request_id": "req_018", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 13.77, "cumulative_regret": 0.27}
{"round": 19, "request_id": "req_019", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 14.57, "cumulative_regret": 0.27}
{"round": 20, "request_id": "req_020", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 15.34, "cumulative_regret": 0.27}
{"round": 21, "request_id": "req_021", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 16.16, "cumulative_regret": 0.27}
{"round": 22, "request_id": "req_022", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 16.94, "cumulative_regret": 0.27}
{"round": 23, "request_id": "req_023", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 17.73, "cumulative_regret": 0.27}
{"round": 24, "request_id": "req_024", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 18.49, "cumulative_regret": 0.27}
{"round": 25, "request_id": "req_025", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 19.26, "cumulative_regret": 0.27}
{"round": 26, "request_id": "req_026", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 20.04, "cumulative_regret": 0.27}
{"round": 27, "request_id": "req_027", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 20.79, "cumulative_regret": 0.27}
{"round": 28, "request_id": "req_028", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 21.6, "cumulative_regret": 0.27}
{"round": 29, "request_id": "req_029", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 22.39, "cumulative_regret": 0.27}
{"round": 30, "request_id": "req_030", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 23.15, "cumulative_regret": 0.27}
{"round": 31, "request_id": "req_031", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 23.95, "cumulative_regret": 0.27}
{"round": 32, "request_id": "req_032", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 24.72, "cumulative_regret": 0.27}
{"round": 33, "request_id": "req_033", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 25.54, "cumulative_regret": 0.27}
{"round": 34, "request_id": "req_034", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 26.32, "cumulative_regret": 0.27}
{"round": 35, "request_id": "req_035", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 27.11, "cumulative_regret": 0.27}
{"round": 36, "request_id": "req_036", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 27.87, "cumulative_regret": 0.27}
{"round": 37, "request_id": "req_037", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 28.64, "cumulative_regret": 0.27}
{"round": 38, "request_id": "req_038", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 29.42, "cumulative_regret": 0.27}
{"round": 39, "request_id": "req_039", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 30.17, "cumulative_regret": 0.27}
{"round": 40, "request_id": "req_040", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 30.98, "cumulative_regret": 0.27}
{"round": 41, "request_id": "req_041", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 31.77, "cumulative_regret": 0.27}
{"round": 42, "request_id": "req_042", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 32.53, "cumulative_regret": 0.27}
{"round": 43, "request_id": "req_043", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 33.33, "cumulative_regret": 0.27}
{"round": 44, "request_id": "req_044", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 34.1, "cumulative_regret": 0.27}
{"round": 45, "request_id": "req_045", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 34.92, "cumulative_regret": 0.27}
{"round": 46, "request_id": "req_046", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 35.7, "cumulative_regret": 0.27}
{"round": 47, "request_id": "req_047", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 36.49, "cumulative_regret": 0.27}
{"round": 48, "request_id": "req_048", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 37.25, "cumulative_regret": 0.27}
{"round": 49, "request_id": "req_049", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 38.02, "cumulative_regret": 0.27}
{"round": 50, "request_id": "req_050", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 38.8, "cumulative_regret": 0.27}
{"round": 51, "request_id": "req_051", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 39.55, "cumulative_regret": 0.27}
{"round": 52, "request_id": "req_052", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 40.36, "cumulative_regret": 0.27}
{"round": 53, "request_id": "req_053", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 41.15, "cumulative_regret": 0.27}
{"round": 54, "request_id": "req_054", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 41.91, "cumulative_regret": 0.27}
{"round": 55, "request_id": "req_055", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 42.71, "cumulative_regret": 0.27}
{"round": 56, "request_id": "req_056", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 43.48, "cumulative_regret": 0.27}
{"round": 57, "request_id": "req_057", "policy_id": "greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 44.3, "cumulative_regret": 0.27}
{"round": 58, "request_id": "req_058", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 45.08, "cumulative_regret": 0.27}
{"round": 59, "request_id": "req_059", "policy_id": "greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 45.87, "cumulative_regret": 0.27}
{"round": 60, "request_id": "req_060", "policy_id": "greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 46.63, "cumulative_regret": 0.27}
{"round": 1, "request_id": "req_001", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.17, "cumulative_reward": 0.6, "cumulative_regret": 0.17}
{"round": 2, "request_id": "req_002", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 1.38, "cumulative_regret": 0.17}
{"round": 3, "request_id": "req_003", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.1, "cumulative_reward": 2.03, "cumulative_regret": 0.27}
{"round": 4, "request_id": "req_004", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 2.84, "cumulative_regret": 0.27}
{"round": 5, "request_id": "req_005", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 3.63, "cumulative_regret": 0.27}
{"round": 6, "request_id": "req_006", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 4.39, "cumulative_regret": 0.27}
{"round": 7, "request_id": "req_007", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 5.19, "cumulative_regret": 0.27}
{"round": 8, "request_id": "req_008", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 5.96, "cumulative_regret": 0.27}
{"round": 9, "request_id": "req_009", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 6.78, "cumulative_regret": 0.27}
{"round": 10, "request_id": "req_010", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.61, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.17, "cumulative_reward": 7.39, "cumulative_regret": 0.44}
{"round": 11, "request_id": "req_011", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 8.18, "cumulative_regret": 0.44}
{"round": 12, "request_id": "req_012", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 8.94, "cumulative_regret": 0.44}
{"round": 13, "request_id": "req_013", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 9.71, "cumulative_regret": 0.44}
{"round": 14, "request_id": "req_014", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 10.49, "cumulative_regret": 0.44}
{"round": 15, "request_id": "req_015", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 11.24, "cumulative_regret": 0.44}
{"round": 16, "request_id": "req_016", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 12.05, "cumulative_regret": 0.44}
{"round": 17, "request_id": "req_017", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 12.84, "cumulative_regret": 0.44}
{"round": 18, "request_id": "req_018", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 13.6, "cumulative_regret": 0.44}
{"round": 19, "request_id": "req_019", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 14.4, "cumulative_regret": 0.44}
{"round": 20, "request_id": "req_020", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.68, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.09, "cumulative_reward": 15.08, "cumulative_regret": 0.53}
{"round": 21, "request_id": "req_021", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 15.9, "cumulative_regret": 0.53}
{"round": 22, "request_id": "req_022", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 16.68, "cumulative_regret": 0.53}
{"round": 23, "request_id": "req_023", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 17.47, "cumulative_regret": 0.53}
{"round": 24, "request_id": "req_024", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 18.23, "cumulative_regret": 0.53}
{"round": 25, "request_id": "req_025", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 19.0, "cumulative_regret": 0.53}
{"round": 26, "request_id": "req_026", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 19.78, "cumulative_regret": 0.53}
{"round": 27, "request_id": "req_027", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 20.53, "cumulative_regret": 0.53}
{"round": 28, "request_id": "req_028", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 21.34, "cumulative_regret": 0.53}
{"round": 29, "request_id": "req_029", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 22.13, "cumulative_regret": 0.53}
{"round": 30, "request_id": "req_030", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.58, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.18, "cumulative_reward": 22.71, "cumulative_regret": 0.71}
{"round": 31, "request_id": "req_031", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 23.51, "cumulative_regret": 0.71}
{"round": 32, "request_id": "req_032", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 24.28, "cumulative_regret": 0.71}
{"round": 33, "request_id": "req_033", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 25.1, "cumulative_regret": 0.71}
{"round": 34, "request_id": "req_034", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 25.88, "cumulative_regret": 0.71}
{"round": 35, "request_id": "req_035", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 26.67, "cumulative_regret": 0.71}
{"round": 36, "request_id": "req_036", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 27.43, "cumulative_regret": 0.71}
{"round": 37, "request_id": "req_037", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 28.2, "cumulative_regret": 0.71}
{"round": 38, "request_id": "req_038", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 28.98, "cumulative_regret": 0.71}
{"round": 39, "request_id": "req_039", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 29.73, "cumulative_regret": 0.71}
{"round": 40, "request_id": "req_040", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 30.54, "cumulative_regret": 0.71}
{"round": 41, "request_id": "req_041", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 31.33, "cumulative_regret": 0.71}
{"round": 42, "request_id": "req_042", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 32.09, "cumulative_regret": 0.71}
{"round": 43, "request_id": "req_043", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 32.89, "cumulative_regret": 0.71}
{"round": 44, "request_id": "req_044", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 33.66, "cumulative_regret": 0.71}
{"round": 45, "request_id": "req_045", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 34.48, "cumulative_regret": 0.71}
{"round": 46, "request_id": "req_046", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 35.26, "cumulative_regret": 0.71}
{"round": 47, "request_id": "req_047", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 36.05, "cumulative_regret": 0.71}
{"round": 48, "request_id": "req_048", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 36.81, "cumulative_regret": 0.71}
{"round": 49, "request_id": "req_049", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 37.58, "cumulative_regret": 0.71}
{"round": 50, "request_id": "req_050", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.68, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.1, "cumulative_reward": 38.26, "cumulative_regret": 0.81}
{"round": 51, "request_id": "req_051", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 39.01, "cumulative_regret": 0.81}
{"round": 52, "request_id": "req_052", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 39.82, "cumulative_regret": 0.81}
{"round": 53, "request_id": "req_053", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 40.61, "cumulative_regret": 0.81}
{"round": 54, "request_id": "req_054", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 41.37, "cumulative_regret": 0.81}
{"round": 55, "request_id": "req_055", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 42.17, "cumulative_regret": 0.81}
{"round": 56, "request_id": "req_056", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 42.94, "cumulative_regret": 0.81}
{"round": 57, "request_id": "req_057", "policy_id": "epsilon_greedy", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 43.76, "cumulative_regret": 0.81}
{"round": 58, "request_id": "req_058", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 44.54, "cumulative_regret": 0.81}
{"round": 59, "request_id": "req_059", "policy_id": "epsilon_greedy", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.9333, "reason": "best_observed_mean", "selection_reason": "best_observed_mean", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 45.33, "cumulative_regret": 0.81}
{"round": 60, "request_id": "req_060", "policy_id": "epsilon_greedy", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "scheduled_exploration", "selection_reason": "scheduled_exploration", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.14, "cumulative_reward": 45.95, "cumulative_regret": 0.95}
{"round": 1, "request_id": "req_001", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.17, "cumulative_reward": 0.6, "cumulative_regret": 0.17}
{"round": 2, "request_id": "req_002", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 1.38, "cumulative_regret": 0.17}
{"round": 3, "request_id": "req_003", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.1, "cumulative_reward": 2.03, "cumulative_regret": 0.27}
{"round": 4, "request_id": "req_004", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 2.84, "cumulative_regret": 0.27}
{"round": 5, "request_id": "req_005", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.67, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.12, "cumulative_reward": 3.51, "cumulative_regret": 0.39}
{"round": 6, "request_id": "req_006", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.58, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.18, "cumulative_reward": 4.09, "cumulative_regret": 0.57}
{"round": 7, "request_id": "req_007", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 4.89, "cumulative_regret": 0.57}
{"round": 8, "request_id": "req_008", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.68, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.09, "cumulative_reward": 5.57, "cumulative_regret": 0.66}
{"round": 9, "request_id": "req_009", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 6.39, "cumulative_regret": 0.66}
{"round": 10, "request_id": "req_010", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.61, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.17, "cumulative_reward": 7.0, "cumulative_regret": 0.83}
{"round": 11, "request_id": "req_011", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 7.79, "cumulative_regret": 0.83}
{"round": 12, "request_id": "req_012", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.11, "cumulative_reward": 8.44, "cumulative_regret": 0.94}
{"round": 13, "request_id": "req_013", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 9.21, "cumulative_regret": 0.94}
{"round": 14, "request_id": "req_014", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.55, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.23, "cumulative_reward": 9.76, "cumulative_regret": 1.17}
{"round": 15, "request_id": "req_015", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 10.51, "cumulative_regret": 1.17}
{"round": 16, "request_id": "req_016", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 11.32, "cumulative_regret": 1.17}
{"round": 17, "request_id": "req_017", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.67, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.12, "cumulative_reward": 11.99, "cumulative_regret": 1.29}
{"round": 18, "request_id": "req_018", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.69, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.07, "cumulative_reward": 12.68, "cumulative_regret": 1.36}
{"round": 19, "request_id": "req_019", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 13.48, "cumulative_regret": 1.36}
{"round": 20, "request_id": "req_020", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.56, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.21, "cumulative_reward": 14.04, "cumulative_regret": 1.57}
{"round": 21, "request_id": "req_021", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 14.86, "cumulative_regret": 1.57}
{"round": 22, "request_id": "req_022", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.66, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.12, "cumulative_reward": 15.52, "cumulative_regret": 1.69}
{"round": 23, "request_id": "req_023", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 16.31, "cumulative_regret": 1.69}
{"round": 24, "request_id": "req_024", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 17.07, "cumulative_regret": 1.69}
{"round": 25, "request_id": "req_025", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.17, "cumulative_reward": 17.67, "cumulative_regret": 1.86}
{"round": 26, "request_id": "req_026", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.68, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.1, "cumulative_reward": 18.35, "cumulative_regret": 1.96}
{"round": 27, "request_id": "req_027", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 19.1, "cumulative_regret": 1.96}
{"round": 28, "request_id": "req_028", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 19.91, "cumulative_regret": 1.96}
{"round": 29, "request_id": "req_029", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.67, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.12, "cumulative_reward": 20.58, "cumulative_regret": 2.08}
{"round": 30, "request_id": "req_030", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.58, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.18, "cumulative_reward": 21.16, "cumulative_regret": 2.26}
{"round": 31, "request_id": "req_031", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 21.96, "cumulative_regret": 2.26}
{"round": 32, "request_id": "req_032", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 22.73, "cumulative_regret": 2.26}
{"round": 33, "request_id": "req_033", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 23.55, "cumulative_regret": 2.26}
{"round": 34, "request_id": "req_034", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.66, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.12, "cumulative_reward": 24.21, "cumulative_regret": 2.38}
{"round": 35, "request_id": "req_035", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 25.0, "cumulative_regret": 2.38}
{"round": 36, "request_id": "req_036", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.14, "cumulative_reward": 25.62, "cumulative_regret": 2.52}
{"round": 37, "request_id": "req_037", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 26.39, "cumulative_regret": 2.52}
{"round": 38, "request_id": "req_038", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.68, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.1, "cumulative_reward": 27.07, "cumulative_regret": 2.62}
{"round": 39, "request_id": "req_039", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 27.82, "cumulative_regret": 2.62}
{"round": 40, "request_id": "req_040", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 28.63, "cumulative_regret": 2.62}
{"round": 41, "request_id": "req_041", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.67, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.12, "cumulative_reward": 29.3, "cumulative_regret": 2.74}
{"round": 42, "request_id": "req_042", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.58, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.18, "cumulative_reward": 29.88, "cumulative_regret": 2.92}
{"round": 43, "request_id": "req_043", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 30.68, "cumulative_regret": 2.92}
{"round": 44, "request_id": "req_044", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 31.45, "cumulative_regret": 2.92}
{"round": 45, "request_id": "req_045", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 32.27, "cumulative_regret": 2.92}
{"round": 46, "request_id": "req_046", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.66, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.12, "cumulative_reward": 32.93, "cumulative_regret": 3.04}
{"round": 47, "request_id": "req_047", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 33.72, "cumulative_regret": 3.04}
{"round": 48, "request_id": "req_048", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.14, "cumulative_reward": 34.34, "cumulative_regret": 3.18}
{"round": 49, "request_id": "req_049", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.66, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.11, "cumulative_reward": 35.0, "cumulative_regret": 3.29}
{"round": 50, "request_id": "req_050", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 35.78, "cumulative_regret": 3.29}
{"round": 51, "request_id": "req_051", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 36.53, "cumulative_regret": 3.29}
{"round": 52, "request_id": "req_052", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 37.34, "cumulative_regret": 3.29}
{"round": 53, "request_id": "req_053", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.59, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.2, "cumulative_reward": 37.93, "cumulative_regret": 3.49}
{"round": 54, "request_id": "req_054", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.69, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.07, "cumulative_reward": 38.62, "cumulative_regret": 3.56}
{"round": 55, "request_id": "req_055", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 39.42, "cumulative_regret": 3.56}
{"round": 56, "request_id": "req_056", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 40.19, "cumulative_regret": 3.56}
{"round": 57, "request_id": "req_057", "policy_id": "ucb", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 41.01, "cumulative_regret": 3.56}
{"round": 58, "request_id": "req_058", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.66, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.12, "cumulative_reward": 41.67, "cumulative_regret": 3.68}
{"round": 59, "request_id": "req_059", "policy_id": "ucb", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 42.46, "cumulative_regret": 3.68}
{"round": 60, "request_id": "req_060", "policy_id": "ucb", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 1.0, "reason": "ucb_score", "selection_reason": "ucb_score", "exploratory": true, "reward": 0.62, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.14, "cumulative_reward": 43.08, "cumulative_regret": 3.82}
{"round": 1, "request_id": "req_001", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_rapido", "action_probability": 0.3333, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.6, "cost": 0.05, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.17, "cumulative_reward": 0.6, "cumulative_regret": 0.17}
{"round": 2, "request_id": "req_002", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.5, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 1.38, "cumulative_regret": 0.17}
{"round": 3, "request_id": "req_003", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "revision_humana", "action_probability": 1.0, "reason": "initial_exploration", "selection_reason": "initial_exploration", "exploratory": true, "reward": 0.65, "cost": 0.7, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.1, "cumulative_reward": 2.03, "cumulative_regret": 0.27}
{"round": 4, "request_id": "req_004", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 2.84, "cumulative_regret": 0.27}
{"round": 5, "request_id": "req_005", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.83, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 3.63, "cumulative_regret": 0.27}
{"round": 6, "request_id": "req_006", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.885, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 4.39, "cumulative_regret": 0.27}
{"round": 7, "request_id": "req_007", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.915, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 5.19, "cumulative_regret": 0.27}
{"round": 8, "request_id": "req_008", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.92, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 5.96, "cumulative_regret": 0.27}
{"round": 9, "request_id": "req_009", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 6.78, "cumulative_regret": 0.27}
{"round": 10, "request_id": "req_010", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.985, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 7.56, "cumulative_regret": 0.27}
{"round": 11, "request_id": "req_011", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.945, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 8.35, "cumulative_regret": 0.27}
{"round": 12, "request_id": "req_012", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.98, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 9.11, "cumulative_regret": 0.27}
{"round": 13, "request_id": "req_013", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.98, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 9.88, "cumulative_regret": 0.27}
{"round": 14, "request_id": "req_014", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.985, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 10.66, "cumulative_regret": 0.27}
{"round": 15, "request_id": "req_015", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.985, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 11.41, "cumulative_regret": 0.27}
{"round": 16, "request_id": "req_016", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 12.22, "cumulative_regret": 0.27}
{"round": 17, "request_id": "req_017", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.98, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 13.01, "cumulative_regret": 0.27}
{"round": 18, "request_id": "req_018", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.98, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 13.77, "cumulative_regret": 0.27}
{"round": 19, "request_id": "req_019", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.975, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 14.57, "cumulative_regret": 0.27}
{"round": 20, "request_id": "req_020", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 15.34, "cumulative_regret": 0.27}
{"round": 21, "request_id": "req_021", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 16.16, "cumulative_regret": 0.27}
{"round": 22, "request_id": "req_022", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.99, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 16.94, "cumulative_regret": 0.27}
{"round": 23, "request_id": "req_023", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 17.73, "cumulative_regret": 0.27}
{"round": 24, "request_id": "req_024", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 18.49, "cumulative_regret": 0.27}
{"round": 25, "request_id": "req_025", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.99, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 19.26, "cumulative_regret": 0.27}
{"round": 26, "request_id": "req_026", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 20.04, "cumulative_regret": 0.27}
{"round": 27, "request_id": "req_027", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 20.79, "cumulative_regret": 0.27}
{"round": 28, "request_id": "req_028", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 21.6, "cumulative_regret": 0.27}
{"round": 29, "request_id": "req_029", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 22.39, "cumulative_regret": 0.27}
{"round": 30, "request_id": "req_030", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 23.15, "cumulative_regret": 0.27}
{"round": 31, "request_id": "req_031", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 23.95, "cumulative_regret": 0.27}
{"round": 32, "request_id": "req_032", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 24.72, "cumulative_regret": 0.27}
{"round": 33, "request_id": "req_033", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 25.54, "cumulative_regret": 0.27}
{"round": 34, "request_id": "req_034", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 26.32, "cumulative_regret": 0.27}
{"round": 35, "request_id": "req_035", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 27.11, "cumulative_regret": 0.27}
{"round": 36, "request_id": "req_036", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.99, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 27.87, "cumulative_regret": 0.27}
{"round": 37, "request_id": "req_037", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 28.64, "cumulative_regret": 0.27}
{"round": 38, "request_id": "req_038", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 29.42, "cumulative_regret": 0.27}
{"round": 39, "request_id": "req_039", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 30.17, "cumulative_regret": 0.27}
{"round": 40, "request_id": "req_040", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 30.98, "cumulative_regret": 0.27}
{"round": 41, "request_id": "req_041", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.995, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 31.77, "cumulative_regret": 0.27}
{"round": 42, "request_id": "req_042", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 32.53, "cumulative_regret": 0.27}
{"round": 43, "request_id": "req_043", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 33.33, "cumulative_regret": 0.27}
{"round": 44, "request_id": "req_044", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 0.99, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 34.1, "cumulative_regret": 0.27}
{"round": 45, "request_id": "req_045", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 34.92, "cumulative_regret": 0.27}
{"round": 46, "request_id": "req_046", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 35.7, "cumulative_regret": 0.27}
{"round": 47, "request_id": "req_047", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 36.49, "cumulative_regret": 0.27}
{"round": 48, "request_id": "req_048", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 37.25, "cumulative_regret": 0.27}
{"round": 49, "request_id": "req_049", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 38.02, "cumulative_regret": 0.27}
{"round": 50, "request_id": "req_050", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 38.8, "cumulative_regret": 0.27}
{"round": 51, "request_id": "req_051", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.75, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.75, "instant_regret": 0.0, "cumulative_reward": 39.55, "cumulative_regret": 0.27}
{"round": 52, "request_id": "req_052", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.81, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.81, "instant_regret": 0.0, "cumulative_reward": 40.36, "cumulative_regret": 0.27}
{"round": 53, "request_id": "req_053", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 41.15, "cumulative_regret": 0.27}
{"round": 54, "request_id": "req_054", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 41.91, "cumulative_regret": 0.27}
{"round": 55, "request_id": "req_055", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.8, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.8, "instant_regret": 0.0, "cumulative_reward": 42.71, "cumulative_regret": 0.27}
{"round": 56, "request_id": "req_056", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.77, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.77, "instant_regret": 0.0, "cumulative_reward": 43.48, "cumulative_regret": 0.27}
{"round": 57, "request_id": "req_057", "policy_id": "thompson_sampling", "context": {"slice": "alta_criticidad"}, "slice": "alta_criticidad", "allowed_actions": ["modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "stable_slice_policy", "selection_reason": "stable_slice_policy", "exploratory": false, "reward": 0.82, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.82, "instant_regret": 0.0, "cumulative_reward": 44.3, "cumulative_regret": 0.27}
{"round": 58, "request_id": "req_058", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.78, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.78, "instant_regret": 0.0, "cumulative_reward": 45.08, "cumulative_regret": 0.27}
{"round": 59, "request_id": "req_059", "policy_id": "thompson_sampling", "context": {"slice": "media_criticidad"}, "slice": "media_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.79, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.79, "instant_regret": 0.0, "cumulative_reward": 45.87, "cumulative_regret": 0.27}
{"round": 60, "request_id": "req_060", "policy_id": "thompson_sampling", "context": {"slice": "baja_criticidad"}, "slice": "baja_criticidad", "allowed_actions": ["modelo_rapido", "modelo_fuerte", "revision_humana"], "action": "modelo_fuerte", "action_probability": 1.0, "reason": "posterior_sample", "selection_reason": "posterior_sample", "exploratory": false, "reward": 0.76, "cost": 0.18, "best_action": "modelo_fuerte", "best_reward": 0.76, "instant_regret": 0.0, "cumulative_reward": 46.63, "cumulative_regret": 0.27}