Aprendizaje con valor

El aprendizaje con valor es un método propuesto para incorporar valores humanos en un IAG. Implica la creación de un alumno artificial cuyas acciones consideran muchos posibles conjuntos de valores y preferencias, sopesados por su probabilidad. El aprendizaje de valores podría evitar que un AGI tenga objetivos perjudiciales para los valores humanos, lo que ayudaría a crear una IA amigable.

Aunque hay muchas maneras de incorporar valores humanos en un AGI (p. ej.: Volición Extrapolada Coherente, Volición Agregada Coherente y Volición Mezclada Coherente), este método se menciona y desarrolla directamente en el documento de Daniel Dewey «Aprender qué valorar». Al igual que la mayoría de los autores, asume que los objetivos humanos no se producirían naturalmente en un agente artificial y deberían imponerse en él. En primer lugar, Dewey argumenta en contra del uso de un uso simple del aprendizaje por refuerzo para resolver este problema, sobre la base de que esto conduce a la maximización de recompensas específicas que pueden diferir de la maximización del valor. Por ejemplo, incluso si diseñamos con fuerza al agente para maximizar esas recompensas que también maximizan los valores humanos, el agente podría alterar su entorno para producir más fácilmente esas mismas recompensas sin el problema de maximizar también los valores humanos (es decir, si la recompensa era felicidad humana, podría alterar la mente humana para que se volviera feliz con cualquier cosa).

Para resolver todos estos problemas, Dewey propone un maximizador de funciones de utilidad, que considera todas las funciones de utilidad posibles ponderadas por sus probabilidades: «e propone incertidumbre sobre las funciones de utilidad. En lugar de proporcionar un agente una función de utilidad por adelantado, proporcionamos un agente con un conjunto de posibles funciones de utilidad y una distribución de probabilidad P de modo que a cada función de utilidad se le pueda asignar probabilidad P(Ujyxm) dado un historial de interacción particular . Un agente puede calcular un valor esperado sobre posibles funciones de utilidad dado un historial de interacción en particular», concluye diciendo que aunque resuelve muchos de los problemas mencionados, este método aún deja muchas preguntas abiertas. Sin embargo, debería proporcionar una orientación para la labor futura….

(Leer Más)

Deja una respuesta

Tu dirección de correo electrónico no será publicada.