AMD Percepat Laju Inovasi dan Kepemimpinan AI Data Center dengan Roadmap GPU AMD Instinct yang Diperluas

  • Roadmap akselerator AMD Instinct yang diperbarui menghadirkan langkah tahunan kepemimpinan dalam performa AI dan kemampuan memori —
  • Akselerator AMD Instinct MI325X baru diharapkan tersedia pada Q4 2024 dengan memori HBM3E hingga 288GB; akselerator AMD Instinct seri MI350 baru dengan arsitektur AMD CDNA 4 diperkirakan akan tersedia pada tahun 2025 dengan peningkatan kinerja inferensi AI sebesar 35x —

Taipei, Taiwan — 3 Juni 2024 — Dalam gelaran Computex 2024, AMD (NASDAQ: AMD) memamerkan momentum perkembangan jajaran akselerator AMD Instinct™ dalam pidato pembuka yang disampaikan oleh Chair dan CEO Dr. Lisa Su. AMD meluncurkan roadmap akselerator AMD Instinct multi-tahun yang diperluas dimana menghadirkan langkah tahunan kepemimpinan kinerja AI dan kemampuan memori di setiap generasi. 

AMD Instinct MI325X_Half_Delidded

Roadmap yang diperbarui mulai akselerator AMD Instinct MI325X baru, yang akan tersedia pada Q4 2024.  Berikutnya, AMD Instinct MI350 series, bertenaga arsitektur AMD CDNA™ 4 baru, diharapkan akan tersedia pada tahun 2025 hingga peningkatan performa inferensi AI 35x dibandingkan AMD Instinct MI300 Series dengan arsitektur AMD CDNA 31. Diharapkan tersedia pada tahun 2026, AMD Instinct MI400 series bertenaga arsitektur AMD CDNA “Next”.  

Read More

“Akselerator AMD Instinct MI300X melanjutkan adopsi yang kuat dari berbagai mitra dan pelanggan termasuk Microsoft Azure, Meta, Dell Technologies, HPE, Lenovo dan lainnya, yang merupakan hasil langsung dari kinerja dan proposisi nilai akselerator AMD Instinct MI300X yang luar biasa,” kata Brad McCredie, corporate vice president, Data Center Accelerated Compute, AMD. “Dengan rangkaian produk tahunan kami yang diperbarui, kami tiada henti dalam langkah inovasi kami, memberikan kemampuan dan kinerja kepemimpinan yang diharapkan oleh industri AI dan pelanggan kami untuk mendorong evolusi berikutnya dalam pelatihan dan inferensi AI data center.”

Ekosistem Software AMD AI Semakin Kuat

Open software stack AMD ROCm™ 6 terus berkembang, dan memungkinkan akselerator AMD Instinct MI300X mendorong kinerja mengesankan untuk beberapa LLM paling populer. Pada server yang menggunakan delapan akselerator AMD Instinct MI300X dan ROCm 6 yang menjalankan Meta Llama-3 70B, pelanggan bisa mendapatkan kinerja inferensi dan pembuatan token 1,3x lebih baik dibandingkan pesaing2. Pada satu akselerator AMD Instinct MI300X dengan ROCm 6, pelanggan bisa mendapatkan kinerja inferensi dan throughput pembuatan token yang lebih baik dibandingkan kompetitor sebesar 1,2x pada Mistral-7B3. AMD juga menyoroti bahwa Hugging Face, penyimpanan terbesar dan terpopuler untuk model AI, kini menguji 700.000 model terpopuler mereka setiap malam untuk memastikan model tersebut berfungsi langsung pada akselerator AMD Instinct MI300X. Selain itu, AMD melanjutkan pekerjaan upstream ke dalam kerangka AI populer seperti PyTorch, TensorFlow, dan JAX.

AMD Melihat Akselerator Baru dan Roadmap Tahunan

Dalam keynote tersebut, AMD mengungkapkan langkah tahunan terbaru untuk roadmap akselerator AMD Instinct guna memenuhi permintaan yang terus meningkat akan komputasi AI yang lebih banyak. Hal ini akan membantu memastikan bahwa akselerator AMD Instinct mendorong pengembangan model AI terdepan generasi berikutnya. Roadmap tahunan AMD Instinct yang diperbarui menyoroti:

  • Akselerator AMD Instinct MI325X baru, yang menghadirkan memori HBM3E 288 GB dan bandwidth memori 6 terabyte per detik, menggunakan desain server Universal Baseboard standar industri yang sama dengan yang digunakan oleh AMD Instinct MI300 series, dan tersedia pada Q4 2024. Akselerator ini akan memiliki kapasitas memori dan bandwidth terdepan di industri, masing-masing 2x dan 1,3x lebih baik dibandingkan kompetitor4, dan kinerja komputasi 1,3x lebih baik dibandingkan kompetitor5.
  • Produk pertama dalam AMD Instinct MI350 Seri, akselerator AMD Instinct MI350X, didasarkan pada arsitektur AMD CDNA 4 dan diharapkan akan tersedia pada tahun 2025. Produk ini akan menggunakan desain server Universal Baseboard standar industri yang sama dengan akselerator MI300 Series lainnya dan akan dibuat menggunakan teknologi proses 3nm yang canggih, mendukung tipe data AI FP4 dan FP6, serta memiliki memori HBM3E hingga 288 GB.   
  • Arsitektur AMD CDNA “Next”, yang akan mentenagai akselerator AMD Instinct MI400 Series, diharapkan akan tersedia pada tahun 2026 dengan menyediakan fitur dan kemampuan terbaru yang akan membantu membuka performa dan efisiensi tambahan untuk inferensi dan pelatihan AI skala besar. 

Terakhir, AMD menyoroti permintaan akselerator AMD Instinct MI300X yang terus bertumbuh dengan banyaknya mitra dan pelanggan yang menggunakan akselerator tersebut untuk mendukung beban kerja AI yang berat, termasuk: 

________________

  1. MI300-55: Inference performance projections as of May 31, 2024 using engineering estimates based on the design of a future AMD CDNA 4-based Instinct MI350 Series accelerator as proxy for projected AMD CDNA™ 4 performance. A 1.8T GPT MoE model was evaluated assuming a token-to-token latency = 70ms real time, first token latency = 5s, input sequence length = 8k, output sequence length = 256, assuming a 4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU performance comparison. Actual performance will vary based on factors including but not limited to final specifications of production silicon, system configuration and inference model and size used. ↩︎
  2.  MI300-54: Testing completed on 05/28/2024 by AMD performance lab attempting text generated Llama3-70B using batch size 1 and 2048 input tokens and 128 output tokens for each system.
    Configurations: 
    2P AMD EPYC 9534 64-Core Processor based production server with 8x AMD InstinctTM MI300X (192GB, 750W) GPU, Ubuntu® 22.04.1, and ROCm™ 6.1.1
    Vs.
    2P Intel Xeon Platinum 8468 48-Core Processor based production server with 8x NVIDIA Hopper H100 (80GB, 700W) GPU, Ubuntu 22.04.3, and CUDA® 12.2
    8 GPUs on each system was used in this test.
    Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.
    ↩︎
  3.  MI300-53: Testing completed on 05/28/2024 by AMD performance lab attempting text generated throughput measured using Mistral-7B model comparison. 
    Tests were performed using batch size 56 and 2048 input tokens and 2048 output tokens for Mistral-7B 
    Configurations: 
    2P AMD EPYC 9534 64-Core Processor based production server with 8x AMD InstinctTM MI300X (192GB, 750W) GPU, Ubuntu® 22.04.1, and ROCm™ 6.1.1
    Vs.
    2P Intel Xeon Platinum 8468 48-Core Processor based production server with 8x NVIDIA Hopper H100 (80GB, 700W) GPU, Ubuntu 22.04.3, and CUDA® 12.2

    Only 1 GPU on each system was used in this test.
    Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.

    ↩︎
  4. MI300-48 – Calculations conducted by AMD Performance Labs as of May 22nd, 2024, based on current specifications and /or estimation. The AMD Instinct™ MI325X OAM accelerator is projected to have 288GB HBM3e memory capacity and 6 TFLOPS peak theoretical memory bandwidth performance. Actual results based on production silicon may vary.    

    The highest published results on the NVidia Hopper H200 (141GB) SXM GPU accelerator resulted in 141GB HBM3e memory capacity and 4.8 TB/s GPU memory bandwidth performance. 
    https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446  

    The highest published results on the NVidia Blackwell HGX B100 (192GB) 700W GPU accelerator resulted in 192GB HBM3e memory capacity and 8 TB/s GPU memory bandwidth performance. 
         
    https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4we know QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaWFVajFyTGhYd3hLQmlZQ3pCb0NsVElRQXZEX0J3RQ..*_gcl_au*MTIwNjg4NjU0Ny4xNzExMDM1NTQ3  

    The highest published results on the NVidia Blackwell HGX B200 (192GB) GPU accelerator resulted in 192GB HBM3e memory capacity and 8 TB/s GPU memory bandwidth performance. 

    https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaWFVajFyTGhYd3hLQmlZQ3pCb0NsVElRQXZEX0J3RQ..*_gcl_au*MTIwNjg4NjU0Ny4xNzExMDM1NTQ3 
    ↩︎
  5. MI300-49: Calculations conducted by AMD Performance Labs as of May 28th, 2024 for the AMD Instinct™ MI325X GPU resulted in 1307.4 TFLOPS peak theoretical half precision (FP16), 1307.4 TFLOPS peak theoretical Bfloat16 format precision (BF16), 2614.9 TFLOPS peak theoretical 8-bit precision (FP8), 2614.9 TOPs INT8 floating-point performance. Actual performance will vary based on final specifications and system configuration.

    Published results on Nvidia H200 SXM (141GB) GPU: 989.4 TFLOPS peak theoretical half precision tensor (FP16 Tensor), 989.4 TFLOPS peak theoretical Bfloat16 tensor format precision (BF16 Tensor), 1,978.9 TFLOPS peak theoretical 8-bit precision (FP8), 1,978.9 TOPs peak theoretical INT8 floating-point performance. BFLOAT16 Tensor Core, FP16 Tensor Core, FP8 Tensor Core and INT8 Tensor Core performance were published by Nvidia using sparsity; for the purposes of comparison, AMD converted these numbers to non-sparsity/dense by dividing by 2, and these numbers appear above. 

    Nvidia H200 source:  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 and https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024 

    Note: Nvidia H200 GPUs have the same published FLOPs performance as H100 products https://resources.nvidia.com/en-us-tensor-core/

    ↩︎

Related posts

Leave a Reply