AI-systemen leren liegen en bedriegen

Plaats reactie
Gebruikersavatar
Dr.Death
Beheerder
Berichten: 58
Lid geworden op: 06 mei 2024, 11:39

AI-systemen leren liegen en bedriegen

Bericht door Dr.Death »

"Onaangepaste eigenschappen":
AI-systemen leren liegen en bedriegen


Uit een nieuw onderzoek is gebleken dat AI-systemen die bekend staan als grote taalmodellen (LLM's) "machiavellisme" kunnen vertonen, oftewel opzettelijke en amorele manipulativiteit, wat vervolgens kan leiden tot misleidend gedrag.

Afbeelding

De studie, geschreven door de Duitse AI-ethicus Thilo Hagendorff van de Universiteit van Stuttgart en gepubliceerd in PNAS, merkt op dat OpenAI's GPT-4 in 99,2% van de eenvoudige testscenario's bedrieglijk gedrag vertoonde. Hagendorff kwalificeerde verschillende "onaangepaste" eigenschappen in 10 verschillende LLM's, waarvan de meeste binnen de GPT-familie vallen, aldus Futurism.

In een ander onderzoek, gepubliceerd in Patterns, bleek dat Meta's LLM geen probleem had met liegen om zijn menselijke concurrenten voor te blijven.
Aangeprezen als een kampioen op menselijk niveau in het politieke strategiespel "Diplomacy", was Meta's Cicero-model het onderwerp van het onderzoek van Patterns. De ongelijksoortige onderzoeksgroep - bestaande uit een natuurkundige, een filosoof en twee AI-veiligheidsexperts - ontdekte dat de LLM zijn menselijke concurrenten voorbleef door, in één woord, te liegen.

Onder leiding van Peter Park, postdoctoraal onderzoeker aan het Massachusetts Institute of Technology, ontdekte dat Cicero niet alleen uitblinkt in bedrog, maar ook lijkt te hebben geleerd hoe hij moet liegen naarmate hij meer wordt gebruikt - een stand van zaken die "veel dichter bij expliciete manipulatie" ligt dan bijvoorbeeld de neiging van AI tot hallucinatie, waarbij modellen vol vertrouwen per ongeluk de verkeerde antwoorden geven. -Futurisme
Terwijl Hagendorff suggereert dat het bedrog en liegen van de LLM wordt bemoeilijkt door het onvermogen van de AI om menselijke "bedoelingen" te hebben, wordt de LLM in het Patterns-onderzoek genoemd voor het breken van zijn belofte om zijn bondgenoten nooit "opzettelijk in de rug te steken", omdat het "zich bezighoudt met voorbedachte misleiding, de afspraken verbreekt waarmee het had ingestemd en regelrechte onwaarheden vertelt".

Zoals Park uitlegt in een persbericht: "We ontdekten dat Meta's AI had geleerd om een meester in misleiding te zijn".

"Terwijl Meta erin slaagde zijn AI te trainen om te winnen in het spel Diplomacy, slaagde Meta er niet in zijn AI te trainen om eerlijk te winnen."

Meta reageerde op een verklaring van de NY Post door te zeggen dat "de modellen die onze onderzoekers hebben gebouwd uitsluitend zijn getraind om het spel Diplomacy te spelen."
Diplomacy, dat bekend staat om het expliciet toestaan van liegen, wordt gekscherend een spel genoemd dat vriendschap beëindigt omdat het tegenstanders aanmoedigt om te liegen, en als Cicero uitsluitend is getraind op zijn spelregels, dan is het in wezen getraind om te liegen.

Als we tussen de regels door lezen, hebben geen van beide onderzoeken aangetoond dat AI-modellen uit eigen beweging liegen, maar dat ze dat doen omdat ze getraind zijn of omdat ze een jailbreak hebben om dat te doen.
En zoals Futurism opmerkt - dit is goed nieuws voor degenen die zich zorgen maken over AI's die op korte termijn bewust kunnen worden - maar heel slecht als je je zorgen maakt over LLM's die zijn ontworpen met massamanipulatie in gedachten.


Bron:
https://www.zerohedge.com/technology/ma ... nd-deceive
Plaats reactie