Tony Kim
23 dec. 2025 21:56
Character.ai dezvăluie metode inovatoare pentru optimizarea pre-antrenamentului la scară largă, concentrându-se pe tehnici precum Squinch, fixare dinamică și Gumbel Softmax, pentru a spori eficiența antrenamentului modelelor AI.
Character.ai, un actor notabil în domeniul AI, a împărtășit recent informații despre eforturile sale timpurii de optimizare a antrenamentului transformer la scară largă. Compania, care și-a reorientat de atunci atenția către fundamentele modelelor open-source, a explorat inițial diverse tehnici pentru a îmbunătăți eficiența și viteza antrenamentului, conform Character.AI Blog.
Compresie Gradient: Squinch
Una dintre inovațiile cheie evidențiate în eforturile Character.ai este un algoritm de compresie gradient cunoscut sub numele de Squinch. Dezvoltată de co-fondatorul Noam Shazeer, această tehnică de compresie pe 6 biți a fost concepută pentru a reduce semnificativ lățimea de bandă de comunicare în timpul antrenamentului distribuit, menținând în același timp acuratețea modelului. Algoritmul comprimă eficient gradienții la 6 biți per element, optimizând utilizarea lățimii de bandă a clusterelor de antrenament.
Regularizare de Precizie: Attention Z-Reg
Character.ai a dezvoltat, de asemenea, Attention Z-Reg, o metodă de regularizare aplicată logit-urilor de atenție pentru a asigura stabilitatea numerică. Această tehnică ajută la menținerea preciziei reprezentărilor bfloat16, crucială pentru optimizarea antrenamentului modelelor mari.
Stabilitate de Cuantizare: Fixare Dinamică
Fixarea Dinamică este o altă tehnică utilizată pentru a îmbunătăți stabilitatea cuantizării. Aceasta previne colapsul valorilor mici de activare la zero prin calcularea dinamică a intervalului de fixare pe baza mediei pătratice a ponderilor de intrare. Această metodă îmbunătățește stabilitatea antrenamentului prin reducerea erorilor de cuantizare.
API de Atenție Eficient: Visibility Mask
Introducerea Visibility Mask, un instrument pentru reprezentarea relațiilor inter-token în timpul antrenamentului și inferenței, a îmbunătățit eficiența sistemelor de antrenament. Acest API ajută la gestionarea intervalelor de atenție în cadrul loturilor, susținând relațiile de documente structurate arborial și atenția bidirecțională.
Optimizare Distilare: Gumbel Softmax
În domeniul distilării modelelor, Character.ai a folosit tehnica Gumbel Softmax pentru a reduce costurile de stocare și lățime de bandă, menținând în același timp fidelitatea modelelor profesor. Această abordare implică eșantionarea subseturilor de ieșiri ale modelului profesor, păstrând valori țintă soft pentru un antrenament mai eficient al modelului student.
Eforturile Character.ai în optimizarea pre-antrenamentului au deschis calea pentru un antrenament mai eficient al modelelor AI, chiar și în condițiile în care compania se îndreaptă către învățarea prin întărire post-antrenament pentru modele open-source. Aceste tehnici, inclusiv Squinch și Gumbel Softmax, subliniază angajamentul companiei de a avansa eficiența și scalabilitatea AI.
Sursa imaginii: Shutterstock
Sursa: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


