Index
Enigeen wat gevra word hoe die Klets GPT, die gewildste KI-agent vandag werk, sal baie die antwoord op die punt van hul tong hê: kunsmatige intelligensie. Maar daardie antwoord is baie vaag. Ten spyte daarvan dat dit vandag een van die studierigtings met die grootste navorsing en ontwikkeling in Rekenaarkunde is, sluit kunsmatige intelligensie verskeie wetenskaplike temas in.
Een daarvan is die sleutel agter hoe ChatGPT en die meeste KI-agente wat op die web beskikbaar is, werk: LLM's. In hierdie artikel sal ons in detail verken hoe hierdie konsep kunsmatige intelligensie en ons wêreld 'n rewolusie gemaak het.
Wat is groot taalmodelle (LLM's)?
Groot taalmodelle (LLMs, Large Language Models, in Portugees) is algoritmes vir Diep leer (Deep Learning, in Portugees) in staat om 'n reeks take uit te voer Natuurlike taal verwerking (Natuurlike Taalverwerking, in Portugees). Pff, so baie akronieme, reg?
LLM's gebruik transformatormodelle en word opgelei met behulp van massiewe datastelle. Enkele voorbeelde van gewilde datastelle is: LAION-2B-af, CCAW e WikiText-103. ’n Transformatormodel lyk dalk soos ’n robot wat in ’n motor verander, maar op die gebied van KI is dit die mees algemene argitektuur vir ’n LLM.
Die transformator bestaan uit 'n encoder (enkodeerder, in Portugees) en a dekodeerder (dekodeerder, in Portugees). Basies is die enkodeerder verantwoordelik vir die skeiding van die woorde van 'n sin of teks in klein dele wat tekens genoem word, en die dekodeerder voer wiskundige bewerkings uit om verwantskappe tussen hierdie tekens te identifiseer.
Die groot verskil tussen transformators en die argitektuur wat jare gelede gebruik is, LSTM (Lang korttermyn geheue, of Lang-korttermyn-geheue), is dat transformators met self-aandagmeganismes werk, dit wil sê, hulle kan vinniger leer wanneer dele van 'n sin of selfs die konteks daarvan oorweeg word, om voorspellings te genereer.
LLM's is veelsydige KI-stelsels wat, benewens dat hulle menslike taal kan verwerk, ook ander take kan verrig soos die ontleding van proteïenstrukture en die generering van programmeringskode. Om doeltreffend te funksioneer, vereis LLM's vooraf-opleiding en noukeurige afstemming om funksies soos teksklassifikasie, opsomming en vraagbeantwoording te hanteer, wat hulle waardevol maak vir industrieë soos gesondheidsorg, finansies en vermaak.
Sleutelkomponente
LLM's bestaan uit veelvuldige lae neurale netwerke. In 'n neurale netwerk (neurale netwerk, in Engels), word basies 'n veranderlike as invoer gebruik, verwerk met verskillende gewigte en wiskundige vergelykings deur een of meer lae, en 'n uitsetwaarde word gegenereer.
Die eerste tipe neurale netwerk wat in LLM'e voorkom, is die inbeddingslaag (inbedding laag, in Engels). Dit is verantwoordelik vir die inbeddingsproses, wat die semantiek en sintaktiese betekenis van die inset vaslê, sodat die model die konteks kan verstaan.
Dan het ons die feedforward-laag (FFN, Feedforward Network, in Engels) wat saamgestel is uit veelvuldige onderling gekoppelde lae wat die inbeddingsinsette transformeer. In hierdie proses laat hierdie lae die model toe om hoërvlak-abstraksies te versamel, dit wil sê om die gebruiker se bedoeling met die teksinvoer te verstaan.
Vervolgens het ons die herhalende laag wat die woorde in die invoerteks in volgorde interpreteer. Dit is verantwoordelik om die verhouding tussen woorde in 'n sin vas te lê.
Laastens, maar nie die minste nie, het ons die aandagmeganisme wat die LLM toelaat om te fokus op enkele dele van die invoerteks wat relevant is vir die opgedra taak. Hierdie laag laat die model toe om die mees geskikte en akkurate uitsette te genereer.
Hoe hulle werk
Noudat ons weet wat LLM's is en wat hul sleutelkomponente is, kan ons duideliker verstaan hoe dit werk. Basies neem transformator-gebaseerde LLM's 'n inset, enkodeer dit en dekodeer dit dan om 'n voorspelde uitset te produseer. Voordat 'n LLM egter 'n teksinvoer kan neem en 'n voorspelde uitset kan genereer, benodig dit opleiding om algemene funksies uit te voer en fyn instel om dit in staat te stel om spesifieke take uit te voer.
Vooropleiding (Vooropleiding, in Engels) is 'n klassieke proses op die gebied van Masjienleer (masjienleer, in Engels) binne Kunsmatige Intelligensie. Hierdie proses, soos die naam aandui, bestaan uit pre-opleiding van LLM's met behulp van groot tekstuele datastelle van triljoene woorde vanaf webwerwe soos Wikipedia, GitHub, tussen ander. Die LLM moet immers van iewers af leer, soos 'n klein kind, nie waar nie?
Gedurende hierdie stadium voer die LLM sogenaamde leer sonder toesig uit (Onbewaakte leer, in Engels) – 'n proses waarin datastelle eenvoudig gelees word sonder spesifieke manipulasie-instruksies. Met ander woorde, sonder 'n "instrukteur", is die LLM se eie KI-algoritme verantwoordelik om die betekenis van elke woord en die verhoudings tussen hulle te leer. Daarbenewens leer LLM ook om woorde op grond van konteks te onderskei. Sy leer byvoorbeeld om te verstaan of "regs" "korrek" beteken of net "die teenoorgestelde van links" is.
Nou die fyn-instelling proses (Fyn instelling, in Engels) dien om die LLM presies te “aanpas” om spesifieke take doeltreffend uit te voer, soos teksvertaling, om die werkverrigting daarvan te optimaliseer. Die aanpassing van aanwysings (vrae en instruksies gegee aan die LLM) werk as 'n soort fynverstelling, aangesien dit die model kan oplei om 'n sekere taak uit te voer.
Vir 'n groot taalmodel om 'n spesifieke taak, soos vertaling, te verrig, moet dit vir daardie spesifieke taak ingestel wees. Fynafstelling optimaliseer prestasie vir spesifieke take.
Vinnige tuning dien 'n soortgelyke funksie as fyn-instelling, opleiding van 'n model om 'n spesifieke taak uit te voer deur min-proefopdragte, of nul-proefopdragte. Hieronder is 'n voorbeeld van 'n "sentiment-analise"-oefening wat 'n paar skoot-opdrag gebruik:
Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo
Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo
Op grond van die resultate wat in hierdie voorbeeld verkry is, sal LLM, deur die semantiese betekenis van "aaklig" en omdat 'n teenoorgestelde voorbeeld verskaf is, verstaan dat die gebruiker se sentiment in die tweede voorbeeld "negatief" is.
Gebruik scenario's
Soos ons vroeër genoem het, kan LLM's vir verskeie doeleindes gebruik word:
- Herwinning van inligting: In hierdie geval kan ons ons voorstel dat dit in websoekenjins, soos Google of Bing, gebruik word. Wanneer 'n gebruiker die soekfunksie van hierdie dienste gebruik, gebruik hulle LLM's om inligting in die vorm van 'n antwoord op hul versoek te produseer. LLM's is in staat om inligting te herwin, dit op te som en die reaksie in die vorm van 'n gesprek met die gebruiker te kommunikeer.
- Teks en programmering kode generering: LLM's is die hoof "enjin" agter Generatiewe AI soos ChatGPT, en kan teks en programmeringskode genereer op grond van insette en opdragte. ChatGPT is byvoorbeeld in staat om patrone te verstaan en kan doeltreffend reageer op gebruikersversoeke soos "skryf 'n gedig oor blomme in die styl van Manuel Bandeira" of "skryf 'n Python-kode wat 'n lys flieks in alfabetiese volgorde kan sorteer".
- Chatbots en Conversational AI's: LLM's is reeds in staat om kliëntediens aan te bied deur chatbot-agente wat met verbruikers gesels, die betekenis van hul vrae en bekommernisse interpreteer en toepaslike antwoorde of leiding bied.
Benewens hierdie gebruikscenario's, blyk LLM's 'n belowende KI-instrument te wees op die gebied van tegnologie, gesondheid en wetenskap, bemarking, reg en ook vir gebruik in bankstelsels. Om jou 'n idee te gee, is LLM's tans in staat om met 'n hoë mate van akkuraatheid die voorkoms van borskanker bloot stelle selmonsters te ontleed met 'n hoër vlak van akkuraatheid as baie ervare klinici.
LLM's en Generatiewe Vooraf Opgeleide Transformator (GPT)
O Generatiewe vooraf-opgeleide transformator (GPT) is 'n spesifieke tipe LLM wat 'n transformator-argitektuur gebruik en is ontwikkel deur die maatskappy OpenAI. Dit is ontwerp om natuurlike taal (soos Portugees of Engels) op 'n hoogs doeltreffende en realistiese manier te verstaan, te genereer en te manipuleer.
Deur die naam af te breek, kan ons beter verstaan wat 'n GPT is:
- Generatief (Generatief, in Portugees): dui aan dat die model teks genereer, dit wil sê dit is in staat om nuwe sinne, antwoorde, opsommings, kodes, ens.
- Vooraf opgelei (Vooraf opgelei, in Portugees): Dit beteken dat dit vooraf opgelei is op 'n groot hoeveelheid teks vanaf die internet, soos boeke, artikels, webwerwe en ander. Dit kan dan vir spesifieke take aangepas word.
- Transformator: Soos ons vroeër genoem het, is dit die neurale netwerkargitektuur wat die basis vir die model verskaf. Dit is hoogs paralleliseerbaar (kan veelvuldige take gelyktydig uitvoer) en doeltreffend om lang reekse teks te hanteer.
Die groot verskil tussen GPT en ander LLM's is die opleidingsfase, wat uit 3 verskillende prosesse bestaan:
- Vooropleiding: Groot hoeveelhede data word uit die internet, boeke en selfs video's en musiek onttrek en dan in tokens verwerk.
- Fyninstellingsinstruksies: Hier word die model "geleer" hoe dit op spesifieke instruksies moet reageer, en sy reaksies in lyn te bring sodat dit meer akkuraat is.
- Versterkingsleer deur menslike terugvoer: soortgelyk aan fynafstelling, hier word die "onderrig" gedoen deur menslike terugvoer wat die proses van "versterkingsleer" veroorsaak, waar die KI leer wat "reg" en wat "verkeerd" is deur herhalings en inligting verskaf deur 'n eksterne agent, in hierdie geval, die gebruiker wat die KI gebruik.
Geskiedenis: van biljoene woorde tot komplekse tekste
Alhoewel die oplewing in taalmodelle eers in 2017 plaasgevind het, was IBM se belyningsmodelle sedert 1990 baanbrekers in statistiese taalmodellering. In 2001 het 'n model wat op 3 miljoen woorde opgelei is, die "moderne" in terme van akkuraatheid in die interpretasie van tekste en samehangende sinne.
Vanaf 2012 Neurale netwerke meer prominensie in die wêreld van KI verwerf en gou vir taaltake begin gebruik word. In 2016 het Google die Neurale Masjien Vertaling (Neurale masjienvertaling, in Portugees) met behulp van modelle gebaseer op hierdie konsep. In 2018 het die maatskappy OpenAI alles ingegaan op die ontwikkeling van KI-agente gebaseer op LLM's en GPT-1 vir toetsing bekendgestel, en dit was eers die volgende jaar dat GPT-2 publieke aandag begin trek het vanweë die potensiële onetiese gebruike daarvan.
In 2020 het die GPT-3 het slegs met beperkte toegang via API aangekom, maar dit was eers in 2022 dat ChatGPT (die KI-agent "aangedryf" deur GPT-3) die aandag van die publiek regoor die wêreld getrek het.
GPT-4 sal in 2023 bekendgestel word met multimodale vermoëns, hoewel tegniese besonderhede nie vrygestel is nie. In 2024 het OpenAI die model o1, gefokus op die generering van lang kettings van redenasie. Hierdie instrumente het die wydverspreide aanvaarding van LLM's oor diverse navorsingsvelde aangedryf.
Vanaf 2024 is al die grootste en doeltreffendste LLM's gebaseer op die transformator-argitektuur, met sommige navorsers wat eksperimenteer en toets met ander argitekture, soos Herhalende neurale netwerke (Herhalende neurale netwerke, in Portugees).
Die voordele en beperkings van LLM's
Met 'n wye reeks toepassings is LLM's buitengewoon voordelig vir probleemoplossing, aangesien dit inligting verskaf in 'n duidelike en eenvoudige styl wat maklik is vir gebruikers om te verstaan. Daarbenewens kan hulle gebruik word vir taalvertaling, sinvoltooiing, sentimentanalise, vraagbeantwoording, wiskundige vergelykings, en meer.
Die prestasie van LLM's verbeter voortdurend soos dit groei namate meer data en parameters bygevoeg word. Met ander woorde, hoe meer jy leer, hoe beter word jy. Boonop kan groot taalmodelle wat genoem word "leer in konteks" vertoon. Sodra 'n LLM vooraf opgelei is, laat die paar skoot-opdrag die model toe om uit die opdrag te leer sonder enige bykomende parameters. Op hierdie manier leer hy voortdurend.
Deur leer in konteks te demonstreer, leer LLM's vinnig omdat hulle nie bykomende gewig, hulpbronne en parameters vir opleiding benodig nie. Hulle is vinnig in die sin dat hulle nie baie voorbeelde benodig om meer “intelligenter” te word nie.
'n Sleutelkenmerk van LLM's is hul vermoë om op onvoorspelbare navrae te reageer. 'n Tradisionele rekenaarprogram, byvoorbeeld, ontvang opdragte in sy aanvaarde sintaksis of vanaf 'n gegewe stel gebruikersinsette. Aan die ander kant kan 'n LLM op natuurlike menslike taal reageer en data-analise gebruik om 'n ongestruktureerde vraag of versoek te beantwoord op 'n manier wat sin maak. Terwyl 'n tipiese rekenaarprogram nie 'n opdrag soos "Wat is die vyf grootste rockgroepe in die geskiedenis?" sal herken nie, kan 'n LLM reageer met 'n lys van vyf sulke groepe en 'n redelik oortuigende argument waarom hulle die beste is.
In terme van die inligting wat hulle verskaf, kan LLM's egter net so betroubaar wees soos die data wat hulle ontvang. As hulle vals inligting in die vooropleidingsfase ontvang, sal hulle vals inligting verskaf in reaksie op gebruikersnavrae. Soms kan LLM's ook "hallusineer" deur antwoorde te skep en selfs valse literêre bronne te skep wanneer hulle nie 'n akkurate antwoord kan lewer nie.
Byvoorbeeld, in 2022, die nuusagentskap Fast Company het ChatGPT gevra oor die maatskappy se vorige finansiële kwartaal Tesla. Terwyl ChatGPT 'n samehangende nuusartikel in reaksie verskaf het, was baie van die inligting daarin vervat. Aangesien dit 'n KI-gebaseerde stelsel is, is dit bekend dat dit voortdurend verbeter, maar dit is steeds verkeerd om 100% van die antwoorde wat deur LLM'e geproduseer word, te vertrou.
Wat sekuriteit betref, is toepassings wat op die gebruiker gerig is, gebaseer op LLM's, so geneig tot foute soos enige ander toepassing. LLM's kan ook gemanipuleer word deur kwaadwillige insette om sekere soorte antwoorde bo ander te verskaf, insluitend gevaarlike of onetiese reaksies.
Ten slotte, een van die sekuriteitskwessies met LLM's is dat gebruikers veilige en vertroulike data kan oplaai om hul eie produktiwiteit te verhoog. Maar LLM's gebruik die insette wat hulle ontvang om hul modelle verder op te lei, en is nie ontwerp om veilige kluise te wees nie, aangesien hulle sensitiewe data kan blootstel in reaksie op navrae van ander gebruikers.
LLM's en die intelligensie agter woorde
Soos 'n kind wat in 'n reuse-biblioteek losgelaat word, is LLM's intelligente KI-stelsels wat leer om natuurlike menslike taal te verstaan en weer te gee op grond van massiewe hoeveelhede data. Alhoewel dit baie voordele aan gewone gebruikers bied en 'n kragtige hulpinstrument in die professionele omgewing word, moet die vermoëns en gevare van LLM's steeds baie noukeurig bestudeer word.
En jy, wat het jy gedink van die verduideliking in hierdie artikel oor LLM's? Laat jou mening in die kommentaar.
sien meer
Bronne: Elasticsearch, CloudFare, IBM
Nagesien deur Tiago Rodrigues op 16/04/2025
Ontdek meer oor Showmetech
Teken in om ons jongste nuus per e-pos te ontvang.