Value Learning

Value learning é um método proposto para incorporar valores humanos em um AGI. Envolve a criação de um aprendiz artificial cujas ações consideram muitos conjuntos possíveis de valores e preferências, pesados por sua probabilidade. O aprendizado de valor pode impedir que um AGI tenha objetivos prejudiciais aos valores humanos, ajudando assim na criação de IA Amigável.

embora existam muitas maneiras de incorporar valores humanos em um AGI (por exemplo,: Volição extrapolada coerente, Volição agregada coerente e Volição combinada coerente), este método é diretamente mencionado e desenvolvido no artigo de Daniel Dewey ‘aprendendo o que valorizar’. Como a maioria dos autores, ele assume que os objetivos humanos não ocorreriam naturalmente em um agente artificial e deveriam ser aplicados nele. Em primeiro lugar, Dewey argumenta contra o uso de um simples uso do aprendizado por reforço para resolver esse problema, com base no fato de que isso leva à maximização de recompensas específicas que podem divergir da maximização de valor. Por exemplo, mesmo que forçada a engenharia do agente para maximizar as recompensas que também maximizar os valores humanos, o agente poderia alterar o seu ambiente de forma a mais facilmente produzir essas mesmas recompensas sem o problema de maximização de valores humanos (i.e.: se a recompensa foi a felicidade humana pode alterar a mente humana tornou-se feliz com qualquer coisa).

para resolver todos esses problemas, Dewey propõe um maximizador de função de utilidade, que considera todas as funções de utilidade possíveis ponderadas por suas probabilidades: “e propor incerteza sobre as funções de utilidade. Em vez de fornecer um agente de uma função de utilidade frente, nós fornecemos um agente com um conjunto de possíveis funções de utilidade e de uma distribuição de probabilidade P de tal forma que cada função de utilidade pode ser atribuído a probabilidade P(Ujyxm) dado um determinado histórico de interação . Um agente pode então calcular um valor esperado sobre possíveis funções de utilidade, dado um histórico de interação específico”, conclui, dizendo que, embora resolva muitos dos problemas mencionados, esse método ainda deixa muitas questões em aberto. No entanto, deve fornecer uma direção para trabalhos futuros….

(Leia Mais)

Deixe uma resposta

O seu endereço de email não será publicado.