AMD Luncurkan Dukungan LLM 128B di PC Windows dengan Ryzen AI Max+ 395

Jakarta, 30 Juli 2025 – AMD mengumumkan pembaruan perangkat lunak gratis yang memungkinkan PC Windows dengan prosesor AMD Ryzen™ AI Max+ 395 (128GB) menjalankan model Large Language Model (LLM) dengan ukuran hingga 128B parameter secara lokal. Langkah ini menjadi pencapaian besar dalam pengembangan AI on-device, karena sebelumnya model sebesar ini hanya dapat dijalankan melalui infrastruktur cloud skala besar.

Dukungan Lokal untuk Model AI Skala Data Center

Model dengan 128 miliar parameter setara dengan model-model besar seperti GPT-3 atau Meta Llama 4 Scout 109B, yang selama ini bergantung pada pusat data karena keterbatasan memori dan kebutuhan komputasi tinggi. Dengan pembaruan ini, AMD memungkinkan pengguna untuk menjalankan model dengan footprint memori besar langsung dari perangkat Windows berbasis x86 yang tipis dan ringan—tanpa perlu akses cloud.

Fitur ini didukung oleh peningkatan signifikan pada teknologi Variable Graphics Memory (VGM) milik AMD, yang memungkinkan alokasi hingga 96GB memori grafis khusus dari total RAM sistem 128GB. Dari sudut pandang sistem operasi, VGM ini berfungsi layaknya VRAM, memberikan GPU terintegrasi akses ke blok memori kontigu yang besar, sangat penting untuk menjalankan model AI besar seperti LLM dan vision-language models (VLMs).

Performa dan Fleksibilitas Melalui Arsitektur Terpadu

Dengan arsitektur memori terpadu, AMD Ryzen™ AI Max+ 395 menawarkan fleksibilitas dalam menjalankan model dari berbagai ukuran dan presisi. Melalui kerangka kerja seperti llama.cpp, pengguna dapat menjalankan model dari ukuran kecil 1B hingga model besar seperti Mistral Large, menggunakan format GGUF yang mendukung berbagai jenis kuantisasi—termasuk Q4, Q6, hingga FP16.

Model Llama 4 Scout, misalnya, adalah model mixture-of-experts (MoE) dengan total parameter 109B, namun hanya 17B yang aktif pada satu waktu. Meskipun demikian, semua parameter tetap harus dimuat dalam memori, menjadikan dukungan VGM yang besar sangat krusial. Dalam pengujian AMD, model ini dapat menghasilkan hingga 15 token per detik dalam kondisi ideal.

Konteks Panjang dan Workflows Agentik

Salah satu tantangan utama dalam penerapan LLM modern adalah panjang konteks (context length)—jumlah token yang dapat diingat model dalam satu sesi. Sebagian besar aplikasi lokal hanya mendukung 4.096 token, namun dengan pembaruan ini, AMD Ryzen™ AI Max+ 395 mendukung hingga 256.000 token dalam satu konteks (dengan Flash Attention dan KV Cache Q8 diaktifkan).

Kemampuan ini sangat penting dalam penggunaan lanjutan seperti Model Context Protocol (MCP) dan tool calling, di mana model dapat menjalankan perintah, mengakses dokumen, menjelajah internet, atau memanggil API eksternal. Dalam demonstrasi, model digunakan untuk merangkum dokumen SEC dengan panjang 19.642 token dan meninjau makalah kosmologi dari arXiv dengan total 21.445 token—dua skenario yang tidak dapat dijalankan pada sistem konvensional.

Kuantisasi dan Presisi: Apa Pengaruhnya?

Artikel ini juga menyoroti pentingnya kuantisasi dalam menjalankan model secara lokal. Q4_K_M, jenis kuantisasi 4-bit yang populer melalui llama.cpp, umumnya cukup untuk interaksi umum. Namun, untuk tugas yang lebih sensitif seperti coding atau radiologi, model presisi lebih tinggi seperti Q6 atau bahkan Q8 lebih direkomendasikan—dengan peningkatan kebutuhan memori yang signifikan.

Model seperti Gemma 3 27B QAT (Quantization Aware Training) dari Google, yang dirancang khusus dengan pelatihan sadar kuantisasi, menawarkan keseimbangan antara efisiensi dan kualitas tinggi. Dengan prosesor AMD Ryzen™ AI Max+ 395, model ini dapat dijalankan sepenuhnya dalam format FP16—kemampuan yang jarang dimiliki oleh sistem konsumen.

Implikasi Lebih Luas: Perpindahan dari Cloud ke Lokal

Pembaruan ini mencerminkan tren yang lebih besar dalam dunia AI: pergeseran dari cloud ke perangkat lokal. Dengan memungkinkan perangkat konsumen menjalankan model skala pusat data, AMD mendemokratisasi akses ke AI canggih, membuka jalan bagi aplikasi offline, pribadi, dan dapat disesuaikan sesuai kebutuhan pengguna.

Selain menawarkan kontrol data lebih baik, pendekatan lokal juga mengurangi latensi, meningkatkan efisiensi, dan memberikan fondasi bagi AI agents generasi berikutnya yang bisa berjalan secara independen dari infrastruktur eksternal.

Pembaruan perangkat lunak ini tersedia secara gratis untuk pengguna prosesor AMD Ryzen™ AI Max+ 395 (128GB) melalui AMD Software: Adrenalin Edition 25.8.1 WHQL. Untuk informasi lebih lanjut dan panduan teknis, pengguna dapat mengunjungi situs resmi AMD.

Untuk mempelajari informasi ini lebih lanjut, Anda dapat membaca blog teknis di sini, serta blog FAQ di sini.

Post Views: 562

Dukungan Lokal untuk Model AI Skala Data Center

Performa dan Fleksibilitas Melalui Arsitektur Terpadu

Konteks Panjang dan Workflows Agentik

Kuantisasi dan Presisi: Apa Pengaruhnya?

Implikasi Lebih Luas: Perpindahan dari Cloud ke Lokal

Related posts

Leave a Reply Cancel reply