High Bandwidth Flash: bisakah NAND akhirnya bertindak seperti memori?
Infrastruktur AI punya cara tersendiri untuk menyingkap batasan yang hampir tidak pernah ditemui oleh kebanyakan sistem.
Di artikel-artikel sebelumnya, kita melihat bagaimana high bandwidth memory untuk workload AI menjaga data tetap sedekat mungkin dengan GPU, dan bagaimana storage class memory di antara DRAM dan NAND membantu memperhalus celah antara memori aktif dan penyimpanan flash tradisional. Kedua lapisan itu ada karena sistem tidak bisa membiarkan dirinya menunggu, bahkan untuk waktu yang singkat, tanpa kehilangan efisiensi.
Tapi ada arah lain juga yang sedang dituju industri, dan itu tidak melibatkan pengenalan jenis memori yang sepenuhnya baru.
Sebaliknya, yang dilakukan adalah mengambil sesuatu yang sudah ada, yaitu NAND flash, lalu mendorongnya ke peran yang pada awalnya memang tidak dirancang untuknya.
Di sinilah gagasan tentang High Bandwidth Flash mulai masuk ke dalam pembicaraan.
Masalah yang sejak awal memang bukan untuk diselesaikan NAND
NAND flash sejak dulu dibangun di atas satu gagasan sederhana: menyimpan banyak data secara efisien dan mengambilnya kembali saat dibutuhkan.
Untuk sebagian besar workload, model itu bekerja dengan sangat baik. Data berada di storage, sistem memintanya, lalu SSD mengirimkannya cukup cepat sehingga hampir tidak ada yang benar-benar menyadari adanya jeda.
Workload AI mengubah dinamika itu.
Alih-alih baca dan tulis sesekali, sistem-sistem ini terus-menerus menarik data secara paralel, sering kali melintasi ribuan thread, dengan toleransi yang sangat kecil terhadap inkonsistensi dalam pengiriman. Ini bukan hanya soal kecepatan secara terpisah, tetapi soal menjaga aliran data yang stabil agar sisi komputasi tetap termanfaatkan sepenuhnya.
Di titik itulah perilaku NAND tradisional mulai menunjukkan batasnya.
Bahkan drive NVMe berkinerja tinggi, dengan antrian yang dalam dan angka throughput yang kuat, masih tetap beroperasi dalam model storage yang mengasumsikan lonjakan aktivitas, bukan aliran akses yang terus-menerus seperti memori.
Jadi pertanyaannya menjadi: apa yang terjadi jika Anda berhenti memperlakukan NAND sebagai storage, lalu mulai memperlakukannya lebih seperti bagian dari sistem memori?
Apa sebenarnya arti dari “High Bandwidth Flash”
High Bandwidth Flash bukan standar formal dan juga bukan satu kategori produk tunggal.
Konsep ini lebih tepat dipahami sebagai arah arsitektur, dan di situlah ia mulai berbeda dari apa yang sebelumnya kita bahas tentang High Bandwidth Memory.
High Bandwidth Memory tetaplah memori. Ia adalah DRAM, dibangun dan ditempatkan untuk memberikan akses yang sangat cepat dengan duduk secara fisik dekat dengan prosesor. Seluruh inti HBM adalah kedekatan dan pengurangan latensi, yaitu membawa data sedekat mungkin ke compute supaya bisa diakses hampir seketika.
High Bandwidth Flash menyelesaikan masalah yang berbeda. Ia menerima kenyataan bahwa NAND berada lebih jauh di dalam sistem dan membawa latensi yang lebih tinggi, lalu berfokus pada cara memindahkan jumlah data yang jauh lebih besar secara paralel agar jarak itu menjadi kurang berarti.
Sederhananya, HBM adalah tentang membuat memori menjadi lebih cepat dengan mendekatkannya. High Bandwidth Flash adalah tentang membuat storage terasa lebih cepat dengan mengubah cara storage itu diakses.
Perbedaan ini penting, karena tujuan di sini bukan mengubah NAND menjadi DRAM. Tujuannya adalah membuat NAND tetap berguna dalam situasi di mana storage tradisional justru akan memperlambat sistem.
Pergeseran ini terjadi di level sistem, bukan hanya di level media penyimpanan.
Alih-alih satu SSD tunggal melayani permintaan dengan cara tradisional, Anda mulai melihat banyak channel NAND bekerja secara paralel, controller yang dirancang untuk konkurensi alih-alih sekadar kapasitas, jalur data yang lebih lebar melalui antarmuka PCIe Gen5 dan Gen6, serta lapisan software yang mengantisipasi dan menyiapkan data sebelum data itu diminta.
Jika digabungkan, perubahan-perubahan ini tidak menghilangkan latensi bawaan NAND, tetapi mengurangi seberapa sering latensi itu menjadi faktor pembatas di dalam sistem.
Cara lain untuk memikirkan bandwidth
Saat orang mendengar istilah “high bandwidth,” asumsi yang biasanya muncul adalah kecepatan mentah.
Padahal dalam konteks ini, bandwidth sebenarnya lebih berkaitan dengan seberapa banyak data yang bisa dipindahkan sekaligus, dan seberapa konsisten perpindahan itu bisa dipertahankan.
Workload AI bukan hanya membutuhkan akses cepat, tetapi akses yang bisa diprediksi dalam skala besar.
Jika sebuah cluster GPU menarik data secara tidak merata, bahkan variasi kecil pun bisa membuat sebagian sistem tersendat. Kalikan itu di ratusan atau ribuan node, maka inefisiensi tersebut mulai muncul dalam bentuk yang sulit diabaikan.
High Bandwidth Flash adalah upaya untuk merapikan itu, bukan dengan menghapus karakteristik NAND, tetapi dengan mengelilinginya menggunakan cukup banyak paralelisme dan kecerdasan sehingga karakteristik tersebut menjadi kurang berpengaruh bagi keseluruhan sistem.
Melanjutkan analogi gudang
Kalau kita tetap memakai model gudang yang sama dari artikel-artikel sebelumnya, NAND selalu menjadi lantai penyimpanan utama.
Di situlah semuanya berada, tersusun dalam baris dan rak, dioptimalkan untuk kepadatan dan efisiensi, bukan untuk kecepatan akses.
DRAM adalah dermaga muat, tempat pekerjaan aktif berlangsung. SCM adalah area staging tepat di belakangnya.
High Bandwidth Flash mengubah cara gudang itu beroperasi.
Alih-alih satu pekerja masuk ke lorong-lorong untuk mengambil barang satu per satu, sekarang ada banyak dermaga muat yang terbuka bersamaan, beberapa forklift bergerak paralel, dan barang-barang sudah diposisikan lebih dulu berdasarkan apa yang diperkirakan akan dibutuhkan sistem berikutnya.
Gudangnya sendiri tidak berubah secara mendasar, tetapi cara gudang itu diakses memang berubah.
Anda tidak mengubah gudang menjadi dermaga muat, Anda membuat gudang itu berperilaku seolah-olah jaraknya jauh lebih dekat ke sana.
Bagaimana ini dibangun dalam praktik
Sebagian besar hal yang memungkinkan High Bandwidth Flash tidak berasal dari NAND itu sendiri, tetapi dari lapisan-lapisan di sekelilingnya.
Controller sekarang memainkan peran yang lebih besar dalam bagaimana data didistribusikan, dengan fokus pada operasi paralel di banyak NAND die dan channel, bukan sekadar mengelola kapasitas dan keausan. Di saat yang sama, bandwidth antarmuka terus bertambah, memberi sistem-sistem ini lebih banyak ruang untuk memindahkan data tanpa terkekang oleh bus.
Namun, hal yang membuat perbedaan terbesar adalah bagaimana software berinteraksi dengan hardware.
Data tidak lagi sekadar diambil saat diminta. Data diprediksi, disiapkan, di-cache, dan diatur dengan cara yang selaras dengan bagaimana workload AI bekerja. Itu berarti mengantisipasi pola akses, menjaga data yang sering dipakai tetap lebih dekat ke bagian atas stack, dan meminimalkan seberapa sering sistem harus kembali ke jalur yang lebih lambat.
Semua ini tidak mengubah NAND menjadi memori sejati, tetapi memungkinkan NAND untuk berpartisipasi dalam sistem memori secara lebih aktif daripada sebelumnya.
Apa yang tetap bukan dirinya
Dengan semua kemajuan ini, tetap penting untuk menjaga ekspektasi tetap realistis.
High Bandwidth Flash tidak membuat NAND setara dengan DRAM. Ia tetap berbasis blok, tetap membawa latensi yang lebih tinggi daripada bentuk memori sejati apa pun, dan tetap sangat bergantung pada controller serta software agar bisa bekerja baik di lingkungan yang menuntut.
Batasan-batasan itu tidak hilang, hanya saja dikelola dengan lebih efektif melalui desain sistem.
Di mana posisinya dalam infrastruktur AI
Di deployment dunia nyata, High Bandwidth Flash mulai muncul di sistem yang harus menangani dataset sangat besar tanpa mendorong semuanya ke tier memori yang mahal.
Dalam praktiknya, yang benar-benar terlihat adalah sebuah sistem yang mengandalkan NAND jauh lebih aktif daripada sebelumnya, bukan sekadar sebagai tempat data disimpan, tetapi sebagai bagian dari jalur data kerja yang memberi makan resource komputasi secara lebih terus-menerus.
Dalam lingkungan inferensi berskala besar, misalnya, model dan data konteks sering kali melebihi apa yang secara realistis bisa muat di dalam DRAM. Daripada memaksa semuanya masuk ke memori, sistem mengandalkan akses NAND dengan throughput tinggi, sehingga data bisa mengalir cukup cepat sampai-sampai terasa lebih seperti perpanjangan memori daripada storage tradisional.
Dalam lingkungan training, di mana dataset terus dikunjungi ulang dan diproses secara paralel, tujuannya bergeser ke menjaga aliran yang stabil alih-alih menangani lonjakan-lonjakan terpisah. High Bandwidth Flash mendukung hal itu dengan menjaga banyak jalur data tetap aktif sekaligus, sehingga kemungkinan satu permintaan menjadi bottleneck bisa dikurangi.
Bahkan di sistem NVMe fabric terdistribusi pun, gagasannya tetap sama. Data tersebar di banyak perangkat dan node, tetapi diakses secara terkoordinasi dengan penekanan pada throughput dan ketersediaan, bukan semata kapasitas penyimpanan. NAND tetap melakukan pekerjaan fundamental yang sama, tetapi cara sistem berinteraksi dengannya jauh lebih dinamis dibanding dulu.
Hasil akhirnya adalah NAND berhenti terasa seperti lapisan yang jauh di bagian paling bawah stack dan mulai terasa seperti bagian dari sistem aktif, walaupun tidak pernah sepenuhnya mencapai karakteristik performa milik memori.
Mengapa arah ini penting
Kalau Anda mundur selangkah dan melihat apa yang sedang terjadi di ketiga artikel ini, sebuah pola mulai terlihat.
HBM membawa memori lebih dekat ke compute. SCM mengurangi jarak antara memori dan storage. High Bandwidth Flash mendorong storage lebih dekat ke memori.
Semuanya sedang bergerak menuju tujuan yang sama: mengurangi seberapa jauh data harus menempuh perjalanan, dan seberapa lama sistem harus menunggunya.
Kembali ke gambaran besarnya
NAND tidak akan hilang.
Kalau pun ada yang berubah, justru NAND menjadi semakin penting, karena total jumlah data yang dibutuhkan sistem-sistem ini terus bertambah.
Yang berubah adalah bagaimana NAND digunakan.
NAND bukan lagi sekadar lapisan pasif di bagian paling bawah stack. NAND sedang ditarik ke atas, diintegrasikan lebih erat, dan diminta berperilaku dengan cara yang makin menyerupai memori, meskipun tidak pernah benar-benar menjadi memori itu sendiri.
Pergeseran itulah yang sudah kita tunjukkan di artikel asli: industri tidak menggantikan NAND, melainkan membangun di sekelilingnya.
Apa berikutnya
Dari sini, stack terus berkembang ke dua arah.
Di atas, memori menjadi lebih cepat dan lebih terspesialisasi. Di bawah, storage menjadi lebih cerdas dan lebih terintegrasi. Dan di suatu titik di tengah, garis pemisah di antara keduanya terus menjadi semakin sulit didefinisikan.
Di artikel berikutnya, kita akan melihat bagaimana sistem AI menangani data kerja secara real time, dan mengapa konsep seperti context dan KV cache mulai memengaruhi bagaimana memori dan storage dirancang bersama.
Catatan editorial
Perspektif, arah, dan kerangka teknis artikel ini dipandu oleh penulis, berdasarkan tema-tema spesifik yang dibahas sepanjang tulisan dan percakapan yang lebih luas tentang bagaimana NAND sedang didorong lebih dekat ke lapisan memori dalam infrastruktur AI.
AI digunakan sebagai asisten drafting untuk membantu ritme, alur kalimat, dan organisasi struktur, tetapi arah pembahasan, perbandingan, dan maksud editorial akhirnya ditentukan oleh penulis.
Gambar pendamping juga dibuat dengan AI, bukan sebagai visual stok generik, melainkan sebagai ilustrasi yang sengaja dirancang untuk mencerminkan konsep-konsep spesifik artikel yang sulit dikomunikasikan melalui citra konvensional – terutama gagasan bahwa NAND flash bertindak lebih seperti lapisan aktif yang berdekatan dengan memori di dalam arsitektur data modern.
Seluruh isi telah ditinjau, diperhalus, dan disetujui oleh penulis sebelum dipublikasikan.



