Nvidia Rilis Cosmos Reason 2, Bawa Penalaran VLM (Visual Light Modulator) ke Dunia Fisik

CEO Nvidia, Jensen Huang, mengatakan tahun lalu bahwa kita sekarang memasuki era AI fisik. Meskipun perusahaan terus menawarkan LLM untuk kasus penggunaan perangkat lunak, Nvidia semakin memposisikan dirinya sebagai penyedia model AI untuk sistem yang sepenuhnya didukung AI — termasuk AI agen di dunia fisik.

Pada CES 2026, Nvidia mengumumkan serangkaian model baru yang dirancang untuk mendorong agen AI melampaui antarmuka obrolan dan ke lingkungan fisik.

Nvidia meluncurkan Cosmos Reason 2, versi terbaru dari model bahasa-visi yang dirancang untuk penalaran yang terwujud. Cosmos Reason 1, yang dirilis tahun lalu, memperkenalkan ontologi dua dimensi untuk penalaran yang terwujud dan saat ini memimpin papan peringkat penalaran fisik untuk video Hugging Face.

Cosmos Reason 2 dibangun di atas ontologi yang sama sambil memberikan perusahaan lebih banyak fleksibilitas untuk menyesuaikan aplikasi dan memungkinkan agen fisik untuk merencanakan tindakan selanjutnya, mirip dengan bagaimana agen berbasis perangkat lunak bernalar melalui alur kerja digital.

Nvidia juga merilis versi baru Cosmos Transfer, sebuah model yang memungkinkan pengembang untuk menghasilkan simulasi pelatihan untuk robot.

Model bahasa-visi lainnya, seperti PaliGemma dari Google dan Pixtral Large dari Mistral, dapat memproses input visual, tetapi tidak semua VLM yang tersedia secara komersial mendukung penalaran.

“Robotika berada pada titik balik. Kita beralih dari robot spesialis yang terbatas pada tugas tunggal ke sistem spesialis generalis,” kata Kari Briski, wakil presiden Nvidia untuk perangkat lunak AI generatif, dalam sebuah pengarahan kepada wartawan. Ia merujuk pada robot yang menggabungkan pengetahuan dasar yang luas dengan keterampilan khusus tugas yang mendalam. “Robot-robot baru ini menggabungkan pengetahuan dasar yang luas dengan kemahiran yang mendalam dan tugas-tugas yang kompleks.”

Ia menambahkan bahwa Cosmos Reason 2 “meningkatkan kemampuan penalaran yang dibutuhkan robot untuk menavigasi dunia fisik yang tidak dapat diprediksi.”

Beralih ke agen fisik
Briski mencatat bahwa peta jalan Nvidia mengikuti “pola aset yang sama di semua model terbuka kami.”

“Dalam membangun agen AI khusus, tenaga kerja digital, atau perwujudan fisik AI dalam robot dan kendaraan otonom, dibutuhkan lebih dari sekadar model,” kata Briski. “Pertama, AI membutuhkan sumber daya komputasi untuk melatih dan mensimulasikan dunia di sekitarnya. Data adalah bahan bakar bagi AI untuk belajar dan berkembang, dan kami berkontribusi pada koleksi dataset terbuka dan beragam terbesar di dunia, melampaui sekadar membuka bobot model. Pustaka terbuka dan skrip pelatihan memberi pengembang alat untuk membangun AI yang sesuai dengan aplikasi mereka, dan kami menerbitkan cetak biru dan contoh untuk membantu menerapkan AI sebagai sistem model.”

Perusahaan ini sekarang memiliki model terbuka khusus untuk AI fisik di Cosmos, robotika, dengan model vision-language-action (VLA) open-reasoning Gr00t dan model Nemotron untuk AI agen.

Nvidia berpendapat bahwa model terbuka di berbagai cabang AI membentuk ekosistem perusahaan bersama yang memberi data, pelatihan, dan penalaran kepada agen di dunia digital dan fisik.

Penambahan pada keluarga Nemotron
Briski mengatakan Nvidia berencana untuk terus memperluas model terbukanya, termasuk keluarga Nemotron, melampaui batas wajar untuk menyertakan model RAG dan embedding baru agar informasi lebih mudah diakses oleh agen. Perusahaan merilis Nemotron 3, versi terbaru dari model penalaran agennya, pada bulan Desember.

Nvidia mengumumkan tiga tambahan baru untuk keluarga Nemotron: Nemotron Speech, Nemotron RAG, dan Nemotron Safety.

Dalam sebuah postingan blog, Nvidia mengatakan Nemotron Speech memberikan “pengenalan ucapan latensi rendah waktu nyata untuk teks langsung dan aplikasi AI ucapan” dan 10 kali lebih cepat daripada model ucapan lainnya.

Nemotron RAG secara teknis terdiri dari dua model: model embedding dan model rerank, yang keduanya dapat memahami gambar untuk memberikan wawasan multimodal yang lebih banyak yang akan dimanfaatkan oleh agen data.

“Nemotron RAG berada di puncak dari apa yang kami sebut MMTab, atau Massive Multilingual Text Embedding Benchmark, dengan performa multibahasa yang kuat sambil menggunakan daya komputasi dan memori yang lebih sedikit, sehingga sangat cocok untuk sistem yang harus menangani banyak permintaan dengan sangat cepat dan dengan penundaan yang rendah,” kata Briski.

Nemotron Safety mendeteksi data sensitif sehingga agen AI tidak secara tidak sengaja merilis data yang dapat mengidentifikasi individu.