Discord Bangun Sistem Otomatis untuk Kelola Database ScyllaDB Skala Raksasa
by El - 24 Mei 2026
Welcome XELAM - Platform komunikasi Discord kembali menunjukkan bagaimana perusahaan teknologi modern menghadapi tantangan infrastruktur berskala besar. Dengan jutaan pengguna aktif dan lalu lintas data yang terus meningkat setiap hari, Discord kini mengembangkan sistem otomatisasi internal untuk mengelola database ScyllaDB mereka secara lebih aman dan efisien. Sistem tersebut dikenal dengan nama Scylla Control Plane (SCP).
Langkah ini muncul karena pengelolaan database dalam skala raksasa bukan lagi pekerjaan sederhana. Discord memiliki lebih dari 20 cluster ScyllaDB dengan hampir 500 node yang menyimpan berbagai data penting, mulai dari pesan pengguna, channel, server komunitas, hingga metadata lain yang digunakan aplikasi setiap detik. Dengan ukuran infrastruktur sebesar itu, proses maintenance manual mulai menjadi beban besar bagi tim engineering.
Masalah Besar di Balik Infrastruktur Modern
Sebelum membangun SCP, Discord mengandalkan berbagai script Python dan shell untuk membantu operasional database. Sistem tersebut memang bekerja, tetapi semakin lama semakin sulit dipelihara. Banyak proses membutuhkan perhatian manual dari engineer, terutama ketika melakukan restart cluster, upgrade sistem operasi, atau penambahan node baru.
Dalam lingkungan produksi besar, satu kesalahan kecil bisa berdampak serius. Misalnya, menjalankan upgrade pada node yang salah atau melakukan restart terlalu cepat dapat memicu gangguan layanan. Selain itu, banyak operasi membutuhkan urutan kerja yang sangat ketat agar cluster tetap stabil selama proses berlangsung.
Discord menyadari bahwa pendekatan berbasis kumpulan script manual tidak lagi cukup untuk mendukung pertumbuhan platform mereka. Tim infrastruktur membutuhkan sistem orkestrasi yang mampu menjalankan workflow kompleks secara otomatis sekaligus tetap aman ketika terjadi kegagalan.
Mengapa Discord Memilih ScyllaDB
ScyllaDB sendiri merupakan database NoSQL yang kompatibel dengan Apache Cassandra, tetapi dibangun menggunakan bahasa C++ dan dirancang untuk performa tinggi dengan latensi rendah. Banyak perusahaan besar mulai melirik ScyllaDB karena mampu menangani workload besar dengan penggunaan hardware yang lebih efisien.
Discord sebelumnya juga pernah membahas alasan mereka menggunakan ScyllaDB untuk menangani jutaan pesan per detik. Salah satu faktor utama adalah kebutuhan terhadap performa stabil tanpa masalah garbage collection yang sering muncul pada sistem berbasis JVM seperti Cassandra tradisional.
Namun, menggunakan database cepat saja tidak cukup. Tantangan terbesar justru ada pada proses operasional sehari-hari, terutama ketika sistem harus diperbarui tanpa mengganggu pengguna aktif.
Lahirnya Scylla Control Plane
Untuk mengatasi masalah tersebut, Discord membangun Scylla Control Plane atau SCP. Sistem ini bertugas sebagai framework orkestrasi internal yang mengotomatisasi berbagai pekerjaan database kompleks.
SCP bekerja menggunakan konsep task, workflow, dan job. Setiap pekerjaan dipecah menjadi task kecil seperti memeriksa status cluster, menghentikan node, menjalankan restart, atau melakukan validasi kondisi sistem. Seluruh task kemudian disusun menjadi workflow otomatis berbasis konfigurasi YAML.
Pendekatan ini membuat engineer tidak perlu lagi menjalankan script satu per satu secara manual. Mereka cukup menjalankan workflow yang sudah disiapkan, sementara SCP akan menangani urutan eksekusi, pengecekan kondisi cluster, retry otomatis, hingga proses recovery apabila terjadi kegagalan.
Discord juga sengaja memilih YAML agar workflow lebih mudah dimodifikasi tanpa perlu melakukan compile ulang aplikasi utama. Engineer dapat mengubah parameter seperti retry, concurrency, dan target node secara lebih fleksibel.
Sistem yang Bisa Melanjutkan Proses Secara Otomatis
Salah satu fitur penting SCP adalah resumability. Pada sistem lama, ketika proses upgrade gagal di tengah jalan, engineer sering kali harus mengulang pekerjaan dari awal. Hal ini memakan waktu dan meningkatkan risiko kesalahan.
SCP menyimpan status seluruh pekerjaan menggunakan SQLite. Dengan begitu, jika terjadi gangguan seperti koneksi SSH terputus atau terminal engineer tertutup, workflow dapat dilanjutkan kembali dari langkah terakhir tanpa mengulang seluruh proses.
Pendekatan ini sangat penting untuk operasi skala besar yang dapat berjalan berjam-jam bahkan lebih dari satu hari.
Shadow Cluster Jadi Senjata Utama Discord
Salah satu konsep paling menarik yang digunakan Discord adalah shadow cluster. Sistem ini merupakan replika penuh dari cluster produksi yang menerima trafik nyata seperti sistem asli.
Tujuan shadow cluster adalah menguji update database sebelum diterapkan ke sistem utama. Jika muncul bug atau masalah performa, Discord dapat menemukannya lebih awal tanpa mengganggu pengguna sebenarnya.
Dalam skala Discord, beberapa bug hanya muncul ketika seluruh node dalam cluster telah diperbarui. Karena itu, pengujian biasa di lingkungan kecil sering kali tidak cukup untuk mendeteksi masalah sebenarnya.
Sebelumnya, membangun shadow cluster membutuhkan proses manual yang sangat panjang. Engineer harus menyiapkan node satu per satu, mengatur replikasi data, memvalidasi sinkronisasi, dan memastikan seluruh sistem berjalan normal. Dengan SCP, sebagian besar tahapan tersebut kini bisa dijalankan otomatis.
Discord mengklaim pekerjaan yang sebelumnya memerlukan waktu lebih dari satu hari kini dapat dipangkas menjadi kurang dari dua jam dalam banyak kasus.
Pentingnya Otomatisasi di Era Infrastruktur Modern
Apa yang dilakukan Discord mencerminkan tren baru di dunia teknologi modern. Semakin besar skala layanan digital, semakin penting otomatisasi operasional infrastruktur.
Perusahaan tidak lagi hanya fokus pada performa aplikasi, tetapi juga bagaimana mengelola sistem backend secara aman dan efisien. Kesalahan manual dalam cluster database besar dapat menyebabkan downtime, kehilangan data, atau gangguan layanan massal.
Karena itu, banyak perusahaan mulai membangun sistem orkestrasi internal yang mampu menjalankan operasi kompleks dengan intervensi manusia seminimal mungkin.
Masa Depan Infrastruktur Database
Discord menyebut bahwa SCP masih terus dikembangkan. Mereka ingin membuat seluruh lifecycle shadow cluster berjalan otomatis sepenuhnya, mulai dari provisioning, konfigurasi, validasi, hingga teardown cluster setelah pengujian selesai.
Selain itu, Discord juga berencana meningkatkan sistem ekspansi cluster agar proses penambahan node baru bisa dilakukan bertahap dengan mekanisme repair otomatis di antara proses join node.
Langkah ini menunjukkan bahwa masa depan infrastruktur modern kemungkinan besar akan semakin bergantung pada otomatisasi cerdas. Engineer tidak lagi hanya mengelola server secara manual, tetapi membangun platform otomatis yang mampu menjalankan dirinya sendiri dengan pengawasan minimal.
Di tengah pertumbuhan layanan digital global, pendekatan seperti ini menjadi salah satu kunci agar platform besar seperti Discord tetap stabil, cepat, dan mampu melayani jutaan pengguna tanpa gangguan besar.