SkyRL Menambahkan Dukungan RL Vision-Language untuk Model Multimodal

Joerg Hiller 24 Apr 2026 16:33

SkyRL memperkenalkan pembelajaran penguatan vision-language, memungkinkan pelatihan yang dapat diskalakan untuk tugas-tugas multimodal. Pelajari bagaimana hal ini berdampak pada pengembangan AI.

SkyRL Menambahkan Dukungan RL Vision-Language untuk Model Multimodal

SkyRL, sebuah library pembelajaran penguatan (RL) yang dikembangkan oleh Sky Computing Lab UC Berkeley dan Anyscale, telah mengumumkan dukungan untuk pelatihan pasca-training model vision-language (VLM). Pembaruan ini memungkinkan tim untuk melatih model multimodal menggunakan alur kerja supervised fine-tuning (SFT) dan RL, menjawab permintaan yang terus meningkat akan model yang mampu menangani data visual dan teks secara bersamaan.

Beban kerja multimodal seperti tugas computer vision, robotika, dan penalaran agentik mengharuskan model untuk memproses input visual, mengambil tindakan, dan beradaptasi berdasarkan umpan balik. Fungsionalitas baru SkyRL menjadikan VLM sebagai warga kelas satu dalam tumpukan pelatihannya, menyediakan alat untuk menskalakan pelatihan di seluruh GPU lokal atau kluster multi-node. Hal ini dibangun di atas infrastruktur SkyRL yang sudah ada, yang telah mendukung tugas-tugas agentik kompleks seperti tolok ukur rekayasa perangkat lunak dan pembuatan Text-to-SQL.

Fitur Utama Pembaruan

Salah satu tantangan utama dalam RL untuk tugas vision-language adalah menjaga konsistensi antara pelatihan dan inferensi. SkyRL mengatasi pergeseran log probabilitas—yang umum terjadi saat memproses input visual—dengan memperkenalkan pipeline yang didisagregasi. Menggunakan tumpukan inferensi vLLM sebagai sumber kebenaran, platform ini memastikan tokenisasi dan persiapan input tetap konsisten di seluruh alur kerja.

Pendekatan ini tidak hanya menstabilkan pelatihan, tetapi juga memungkinkan penskalaan independen pekerja CPU untuk pemrosesan input, memastikan throughput GPU tidak mengalami bottleneck. Pembaruan ini juga mendukung resep siap pakai untuk tugas-tugas seperti navigasi Maze2D dan Geometry-3k, sebuah dataset yang membutuhkan penalaran geometri visual. Hasil awal menunjukkan peningkatan stabilitas pelatihan bahkan pada ukuran model yang lebih besar, seperti Qwen3-VL 8B Instruct.

Implikasi bagi Pengembangan AI

SkyRL memposisikan dirinya sebagai platform utama untuk RL dan SFT yang dapat diskalakan dalam pelatihan model multimodal. Dengan mengintegrasikan alat-alat seperti Tinker API, pengguna dapat menerapkan alur kerja RL pada infrastruktur mereka sendiri, mengurangi ketergantungan pada penyedia eksternal. Hal ini sangat relevan mengingat meningkatnya kebutuhan komputasi untuk melatih model-model besar.

Kemajuan ini hadir pada saat sistem AI multimodal sangat diminati untuk aplikasi dunia nyata. Tugas-tugas yang membutuhkan pengambilan keputusan berurutan, penalaran visual, dan kemampuan adaptasi—seperti navigasi otonom dan interaksi dinamis dengan alat—akan memperoleh manfaat yang signifikan. Desain modular SkyRL juga mendukung pembuatan prototipe cepat, memungkinkan peneliti dan pengembang untuk bereksperimen dengan algoritma baru dan paradigma pelatihan.

Melihat ke Depan

Peta jalan SkyRL mencakup fitur-fitur seperti sequence packing, dukungan backend Megatron, dan pelatihan konteks panjang dengan paralelisme konteks. Peningkatan ini diharapkan dapat semakin meningkatkan kemampuannya dalam menangani beban kerja agentik yang kompleks. Bagi para pengembang yang ingin mendalami pelatihan VLM, SkyRL menawarkan tutorial dan dokumentasi untuk membantu mereka memulai.

Seiring industri AI yang semakin mengintegrasikan sistem multimodal ke dalam kasus penggunaan praktis, kemampuan untuk melatih dan melakukan fine-tune model-model tersebut secara efisien akan menjadi pembeda utama. Pembaruan terbaru SkyRL mencerminkan komitmennya untuk tetap berada di garis terdepan evolusi ini, menyediakan kerangka kerja yang dapat diskalakan dan modular untuk penelitian dan penerapan RL mutakhir.

Sumber gambar: Shutterstock

skyrl
pembelajaran penguatan
model vision-language
pelatihan ai

SkyRL Menambahkan Dukungan RL Visi-Bahasa untuk Model Multimodal

SkyRL Menambahkan Dukungan RL Vision-Language untuk Model Multimodal

Fitur Utama Pembaruan

Implikasi bagi Pengembangan AI

Melihat ke Depan

Anda Mungkin Juga Menyukai

Penghancur AS mencegat kapal Iran, berdampak pada pasar Selat Hormuz

Ekspor minyak AS mencapai rekor saat konflik Iran mengganggu pasokan global

Azizi Iran: Tidak ada pembicaraan nuklir selama kunjungan ke Pakistan, pasar mencerminkan kebuntuan

Berita yang Sedang Tren

Harga Koin ASTEROID Hari Ini dan Faktor yang Mempengaruhinya

ETF Bitcoin, Ethereum catat arus masuk $37,8 juta di tengah ketegangan AS-Iran

Pemimpin Pi Network Bergabung di Consensus Miami untuk Membahas Blockchain dan AI

'Pencegahan'- Wrapped Bitcoin (wBTC) memperketat keamanan setelah eksploitasi KelpDAO senilai $293 juta

Penggalangan dana VC Crypto turun 46% pada Februari karena AI mendominasi dengan $242B

Berita Live 24/7

Bacaan Cepat

Prediksi Harga BEEG 2026: Apakah Paus Sudah Terdampar - Atau Gelombang Terbesar Masih Datang?

BEEG 2026 Menyelam Dalam: Apakah Paus Diam-diam Akumulasi?

ETF XRP Baru Memecahkan Kemenangan Beruntun Terpanjang mereka di 2026 - Inilah Arti Angka Sebenarnya

DOGE Bulls Eye adalah Key Breakout - Apakah $0,126 adalah Perhentian Berikutnya?

Apa itu Peace Frog (PEACE)? Pengenalan Cryptocurrency

Harga Kripto