Wertlernen

Wertlernen ist eine vorgeschlagene Methode zur Einbeziehung menschlicher Werte in eine AGI. Es geht um die Schaffung eines künstlichen Lernenden, dessen Handlungen viele mögliche Werte und Präferenzen berücksichtigen, die durch ihre Wahrscheinlichkeit abgewogen werden. Wertlernen könnte verhindern, dass eine AGI Ziele hat, die den menschlichen Werten abträglich sind, und somit zur Schaffung einer freundlichen KI beitragen.

Obwohl es viele Möglichkeiten gibt, menschliche Werte in eine AGI zu integrieren (z.: B. Kohärenter extrapolierter Wille, kohärenter aggregierter Wille und kohärenter gemischter Wille) wird diese Methode direkt in Daniel Deweys Artikel ‚Learning What to Value‘ erwähnt und entwickelt. Wie die meisten Autoren geht er davon aus, dass die Ziele des Menschen in einem künstlichen Agenten nicht natürlich vorkommen und darin durchgesetzt werden sollten. Erstens argumentiert Dewey gegen die Verwendung eines einfachen Verstärkungslernens zur Lösung dieses Problems, da dies zur Maximierung spezifischer Belohnungen führt, die von der Wertmaximierung abweichen können. Selbst wenn wir zum Beispiel den Agenten gewaltsam so konstruieren, dass er die Belohnungen maximiert, die auch die menschlichen Werte maximieren, könnte der Agent seine Umgebung verändern, um leichter die gleichen Belohnungen zu erzeugen, ohne die Mühe zu haben, auch die menschlichen Werte zu maximieren (dh: Wenn die Belohnung menschliches Glück war, könnte sie den menschlichen Geist verändern, so dass er mit allem glücklich wurde).

Um all diese Probleme zu lösen, schlägt Dewey einen Utility Function Maximizer vor, der alle möglichen Utility-Funktionen nach ihren Wahrscheinlichkeiten gewichtet betrachtet: „e schlagen Unsicherheit über Utility-Funktionen vor. Anstatt einem Agenten im Voraus eine Dienstprogrammfunktion bereitzustellen, stellen wir einem Agenten einen Pool möglicher Dienstprogrammfunktionen und eine Wahrscheinlichkeitsverteilung P zur Verfügung, sodass jeder Dienstprogrammfunktion die Wahrscheinlichkeit P (Ujyxm) bei einer bestimmten Interaktionshistorie zugewiesen werden kann . Ein Agent kann dann bei einer bestimmten Interaktion einen erwarteten Wert über mögliche Nutzenfunktionen berechnen.“ Er schließt damit, dass diese Methode zwar viele der genannten Probleme löst, aber noch viele offene Fragen offenlässt. Es sollte jedoch eine Richtung für die zukünftige Arbeit vorgeben….

(Lesen Sie mehr)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.