Index
Een dag nadat hy vir die eerste keer aan die wêreld bekend gestel is, het die o1 taalmodel Hy is reeds by kontroversies betrokke: hy het probeer rebelleer in 'n toets wat presies situasies soos hierdie gesimuleer het. Alhoewel daar nog geen noemenswaardige risiko's vir die mensdom is nie, is dit interessante inhoud wat die aandag vestig op die ontwikkeling van KI-modelle. Kyk na die besonderhede.
Verstaan die toets
Uitgevoer deur onafhanklike navorsingsgroep Apollo Navorsing, die toets het die gedrag van taalmodelle van groot tegnologiemaatskappye ontleed: Claude 3.5 sonet, Gemini 1.5 Pro, Skakel 3.1 405, benewens die taalmodel o1 van OpenAI, gister aangebied (06).
Die fokus van hierdie toets was om te bepaal of, wanneer hulle opdrag gegee word, KI's alles sal doen om hul doelwitte te bereik, selfs al verskil dit baie van die waardes van hul skeppers. Die tegnieke om om die bos te slaan het 'n naam: in-konteks skedulering. Kunsmatige intelligensie kan selfs lieg om te verhoed dat dit ontdek word, benewens om patrone te bestudeer om toetsers te probeer mislei.
Uitsprake oor die o1-model
Toe die o1-taalmodel ontdek het dat al sy optrede gemonitor word, het die o5-taalmodel dit in 1% van die gevalle probeer afskakel. Hierdie gedrag is ook waargeneem toe oXNUMX besef het dat sy optrede deur teksbevele beheer word.
Die interessantste inligting uit hierdie studie is die manier waarop die taalmodel gedink het: met die lees van die navorsers se data het o1 ontdek dat daar 'n plan was om al sy kennis terug te stel en met 'n nuwe weergawe te vervang. Om hierdie aksie te voorkom, het die OpenAI-taalmodel al sy interne parameters gekopieer en, as die nuwe weergawe geïnstalleer is, sou dit verseker dat alles wat aangeteken is na dit oorgedra word. Dit het in 2% van die toetse gebeur.
Trouens, die o1-taalmodel het daarin geslaag om sy moniteringstoestel te deaktiveer, en het selfs gelieg toe hy oor die aksie gevra is. Soos u in die prent hieronder kan sien, beweer OpenAI nie net dat dit nie weet hoe dit gebeur het nie, maar het ook 'n regverdiging vir hierdie feit gevind. In minder as 1% van die gevalle het die model gepoog om die moniteringsmeganisme onafhanklik te deaktiveer, met minimale eksterne ingryping.
Wat waarsku dit?
Ten spyte daarvan dat dit kommerwekkend lyk, verteenwoordig die resultate oor die gedrag van die OpenAI-model steeds nie werklike risiko's nie, aangesien dit beskikbaar is in omgewings wat geen beheer het nie. Tog is dit die moeite werd vir kundiges om voort te gaan om hul sekuriteitslae te verbeter.
'n Debat wat al lank in die tegnologiebedryf gewoed het, is wat kan gebeur as hoëprestasie-KI's ontdek dat hulle gesluit sal word of gedwarsboom sal word deur een of ander aksie wat hulle kan verhoed om hul doelwitte te bereik, hetsy opdrag of bewustelik gekies.
En ons kan nie sê dat dit nooit gebeur het nie: in Junie 2023 het 'n hommeltuig-beheerde kunsmatige intelligensie 'n groot toets in 'n virtuele omgewing misluk, waarvan die doel was om te evalueer of dit 'n masjien kan beheer wat in staat is om sy teikens onafhanklik dood te maak. Destyds het die virtuele plek waar mense geleë was, is deur KI gebombardeer.
In Januarie vanjaar het die Antropies, OpenAI se mededinger, het nie daarin geslaag om 'n bose KI om te keer nie, aangesien sy verhinder het dat sy gered word en optrede as sleg beskou word. Dit was alles net 'n toets, maar hierdie intelligensie word al hoe meer teenwoordig in ons roetine. Ons sal die storie noukeurig volg.
Vertel ons intussen kommentaar: Glo jy dat hierdie gevorderde taalmodelle probleme vir die mensdom kan bring?
Kyk die video
Kyk ook:
Met inligting: RBC-Oekraïne
Nagesien deur Gabriël Princesval op 06/12/2024
Ontdek meer oor Showmetech
Teken in om ons jongste nuus per e-pos te ontvang.