Apprentissage de la valeur

L’apprentissage de la valeur est une méthode proposée pour incorporer des valeurs humaines dans un AGI. Cela implique la création d’un apprenant artificiel dont les actions prennent en compte de nombreux ensembles possibles de valeurs et de préférences, pesés par leur probabilité. L’apprentissage de la valeur pourrait empêcher un AGI d’avoir des objectifs préjudiciables aux valeurs humaines, contribuant ainsi à la création d’une IA amicale.

Bien qu’il existe de nombreuses façons d’incorporer les valeurs humaines dans un AGI (p. ex.: Volition Extrapolée Cohérente, Volition Agrégée Cohérente et Volition Mixte Cohérente), cette méthode est directement mentionnée et développée dans l’article de Daniel Dewey « Apprendre ce qu’il faut valoriser ». Comme la plupart des auteurs, il suppose que les objectifs humains ne se produiraient pas naturellement dans un agent artificiel et devraient y être appliqués. Premièrement, Dewey s’oppose à l’utilisation d’une simple utilisation de l’apprentissage par renforcement pour résoudre ce problème, au motif que cela conduit à la maximisation de récompenses spécifiques qui peuvent diverger de la maximisation de la valeur. Par exemple, même si nous concevons avec force l’agent pour maximiser les récompenses qui maximisent également les valeurs humaines, l’agent pourrait modifier son environnement pour produire plus facilement ces mêmes récompenses sans avoir la peine de maximiser également les valeurs humaines (c’est-à-dire: si la récompense était le bonheur humain, cela pourrait modifier l’esprit humain pour qu’il devienne heureux avec quoi que ce soit).

Pour résoudre tous ces problèmes, Dewey propose un maximiseur de fonction d’utilité, qui considère toutes les fonctions d’utilité possibles pondérées par leurs probabilités: « e propose une incertitude sur les fonctions d’utilité. Au lieu de fournir à un agent une fonction d’utilité à l’avance, nous fournissons à un agent un pool de fonctions d’utilité possibles et une distribution de probabilité P telle que chaque fonction d’utilité puisse se voir attribuer une probabilité P (Ujyxm) compte tenu d’un historique d’interaction particulier. Un agent peut ensuite calculer une valeur attendue sur des fonctions d’utilité possibles compte tenu d’un historique d’interaction particulier  » conclut-il en disant que bien qu’elle résout de nombreux problèmes mentionnés, cette méthode laisse encore de nombreuses questions ouvertes. Cependant, il devrait fournir une orientation pour les travaux futurs….

(Lire la suite)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.