API Cepat Tapi Rapuh: Salah Desain Retry, Timeout, dan Idempotensi

Banyak tim merasa integrasi sudah “cepat” karena latency rendah di localhost, staging, atau load test yang bersih. Masalahnya, produksi tidak berjalan di kondisi ideal. Ada network jitter, packet loss, timeout bertingkat, retry otomatis dari client, webhook yang terlambat, dan request yang berhasil sebagian tetapi gagal mengirim respons. Di titik ini, API cepat tapi rapuh biasanya bukan masalah optimasi CPU, melainkan masalah desain kontrak dan semantik kegagalan.

Pelajaran pentingnya mirip dengan asumsi keliru soal performa pada sistem yang terasa cepat di lingkungan sendiri: pengalaman lokal sering menipu. Dalam desain integrasi API, mengejar latency serendah mungkin bisa berbahaya jika mengorbankan timeout yang masuk akal, retry yang aman, dan idempotensi. Hasilnya bukan API yang responsif, melainkan sistem yang mudah menduplikasi transaksi, memicu retry storm, dan sulit di-debug ketika ada partial success.

Kenapa API bisa tampak cepat tetapi rapuh?

Benchmark lokal biasanya menguji jalur sukses: koneksi stabil, tidak ada proxy bermasalah, database hangat, payload kecil, dan tidak ada kompetisi resource. Produksi justru penuh variasi:

Network jitter: latency naik-turun antar request.
Timeout bertingkat: client, gateway, load balancer, service, dan database punya batas waktu berbeda.
Retry otomatis: SDK, reverse proxy, job worker, atau mobile client bisa mengulang tanpa koordinasi.
Duplicate delivery: webhook dan queue pada umumnya bersifat at least once.
Partial success: operasi di server selesai, tetapi respons ke client gagal dikirim.

Gejala khasnya di produksi:

Pembayaran atau order tercatat ganda.
Status data di dua sistem saling bertentangan.
P95/P99 latency melonjak hanya saat downstream lambat.
Lonjakan traffic kecil memicu cascading failure karena semua komponen melakukan retry bersamaan.
Insiden sulit direproduksi karena log hanya menunjukkan timeout, bukan apakah operasi sebenarnya sudah commit.

Masalah utamanya ada di kontrak API, bukan hanya implementasi

Retry, timeout, dan idempotensi bukan fitur tambahan. Ketiganya harus menjadi bagian dari kontrak API. Artinya, client dan server sama-sama tahu:

Request mana yang aman untuk diulang.
Berapa lama client boleh menunggu sebelum menganggap gagal.
Apa arti error tertentu: gagal total, belum diketahui, atau berhasil sebagian.
Bagaimana mendeteksi duplikasi.
Bagaimana status akhir bisa dikonfirmasi ulang jika respons pertama hilang.

Contoh skenario nyata: membuat order ke payment provider

Bayangkan backend e-commerce memanggil API payment provider:

Backend mengirim POST /payments.
Provider berhasil membuat transaksi dan menyimpan data.
Sebelum respons sampai, koneksi putus atau timeout di client.
Backend menganggap gagal lalu mengulang request yang sama.

Jika endpoint tidak idempoten, dua transaksi bisa tercipta. Di dashboard terlihat seperti “timeout acak”, padahal akar masalahnya adalah desain yang tidak mendefinisikan bagaimana menangani hasil yang tidak diketahui (unknown outcome).

Aturan praktis: jika suatu operasi punya efek samping dan client mungkin akan retry, maka operasi itu harus didesain idempoten atau menyediakan mekanisme rekonsiliasi status.

Timeout yang benar: bukan sekadar dibuat sekecil mungkin

Anti-pattern umum adalah menurunkan timeout demi terlihat cepat. Misalnya, semua outbound call dipaksa timeout 200 ms agar thread tidak lama menunggu. Secara lokal ini tampak efisien. Di produksi, timeout yang terlalu agresif justru:

meningkatkan false failure,
memicu retry berlebihan,
membuat downstream menerima beban ganda,
memperburuk latency ekor (tail latency).

Prinsip penentuan timeout

Bedakan connect timeout dan read/request timeout. Gagal membuka koneksi berbeda dengan server lambat merespons.
Sesuaikan dengan SLO dan karakter downstream. Internal RPC untuk cache tentu berbeda dengan payment gateway pihak ketiga.
Perhatikan timeout berantai. Timeout upstream harus lebih kecil dari batas total request, tetapi tidak terlalu kecil sehingga semua request normal ikut dianggap gagal.
Jangan lupa antrean dan cold start. Bukan hanya waktu eksekusi bisnis yang dihitung.

Gejala timeout yang buruk

Banyak error timeout tetapi log downstream menunjukkan request sebenarnya selesai.
Retry rate naik tajam bersamaan dengan penurunan latency rata-rata.
Load normal berubah menjadi spike besar saat ada sedikit perlambatan jaringan.

Respons aman ketika hasil belum pasti

Jika timeout terjadi setelah request dikirim, client sebaiknya tidak langsung menyimpulkan “gagal total”. Untuk operasi penting, simpan request_id atau idempotency_key, lalu lakukan status check:

POST /payments HTTP/1.1
Idempotency-Key: 7f3b6c8d-9d5f-4e11-a4f2-3bd2b0f4811f
Content-Type: application/json

{
  "order_id": "ORD-20260609-001",
  "amount": 150000,
  "currency": "IDR"
}

Jika client timeout, ia dapat memanggil:

GET /payments/by-idempotency-key/7f3b6c8d-9d5f-4e11-a4f2-3bd2b0f4811f

Pola ini jauh lebih aman daripada mengirim POST yang sama berulang kali tanpa identitas stabil.

Retry yang aman: kapan boleh, kapan berbahaya

Retry memang meningkatkan keberhasilan pada kegagalan sementara. Namun retry yang salah desain adalah salah satu penyebab utama integrasi yang rapuh.

Retry hanya untuk kegagalan yang memang bisa pulih

Secara umum, retry cocok untuk:

timeout jaringan sementara,
koneksi terputus sebelum respons diterima,
error 5xx yang jelas bersifat sementara,
respons rate limit yang memang menyarankan percobaan ulang.

Retry biasanya tidak cocok untuk:

error validasi 4xx,
konflik bisnis yang membutuhkan intervensi,
operasi non-idempoten tanpa idempotency key,
kegagalan permanen seperti kredensial salah.

Gunakan backoff dan jitter

Retry instan adalah anti-pattern. Jika seribu worker retry pada detik yang sama, downstream akan menerima gelombang traffic tambahan tepat saat sedang lemah. Solusi dasarnya:

exponential backoff: jeda makin panjang di setiap percobaan,
jitter: tambahkan variasi acak agar retry tidak serempak.

function callWithRetry(request):
  maxAttempts = 4
  baseDelayMs = 200

  for attempt in 1..maxAttempts:
    result = send(request)

    if result.success:
      return result

    if !isRetriable(result.error):
      return result

    if attempt == maxAttempts:
      return result

    delay = randomBetween(0, baseDelayMs * (2 ^ (attempt - 1)))
    sleep(delay)

Kenapa jitter penting? Karena tanpa jitter, exponential backoff masih bisa sinkron jika semua request gagal pada waktu yang sama.

Batasi total budget retry

Retry tidak boleh memperpanjang request tanpa batas. Tentukan retry budget atau tenggat total. Jika user-facing request punya deadline 3 detik, jangan habiskan 10 detik untuk retry di belakang layar. Untuk operasi yang tidak harus sinkron, lebih aman ubah menjadi proses asinkron via queue.

Idempotensi: fondasi untuk mengatasi duplicate request

Dalam sistem nyata, duplicate request bukan anomali. Ia akan terjadi karena user klik dua kali, mobile client reconnect, proxy mengulang, worker restart, atau respons hilang setelah server commit. Karena itu, idempotency key sering lebih penting daripada optimasi beberapa milidetik latency.

Apa itu idempotensi dalam konteks API?

Idempoten berarti beberapa request identik dengan kunci yang sama menghasilkan satu efek akhir yang sama. Bukan berarti server harus menjalankan logika berkali-kali lalu kebetulan hasilnya sama; idealnya server mengenali bahwa request itu duplikat dan mengembalikan hasil yang konsisten.

Desain idempotency key yang praktis

Client mengirim header seperti Idempotency-Key untuk operasi create/charge/submit.
Server menyimpan kunci tersebut bersama fingerprint request dan hasil respons.
Jika request identik datang lagi dengan key sama, server mengembalikan hasil sebelumnya.
Jika key sama tetapi payload berbeda, server mengembalikan error konflik karena itu indikasi bug client.

POST /transfers HTTP/1.1
Idempotency-Key: trf-8db2f9c0-1201-4b4f-a4ff-91d7e12aa001
Content-Type: application/json

{
  "source_account": "A-001",
  "target_account": "B-009",
  "amount": 50000
}

Penyimpanan idempotency record

Minimal, simpan:

idempotency_key
request_fingerprint atau hash payload relevan
status: in_progress, succeeded, failed
response_code dan body ringkas yang akan dikembalikan ulang
created_at dan waktu kedaluwarsa

Hal penting yang sering terlewat: penyimpanan key harus berada di boundary yang cukup kuat secara konsistensi. Jika Anda memproses pembayaran, menyimpan key hanya di cache volatil tanpa strategi pemulihan bisa berisiko.

Edge case yang wajib dipikirkan

Duplicate saat proses pertama masih berjalan: request kedua harus tahu bahwa operasi sedang diproses, bukan membuat entitas baru.
Payload berbeda dengan key sama: balas dengan konflik, jangan diam-diam memproses.
Server crash setelah commit, sebelum menyimpan respons: butuh rekonsiliasi dari resource yang sudah tercipta.
Masa hidup key: terlalu pendek berisiko duplikasi, terlalu panjang menambah beban storage.

Pseudo-code server-side

function createPayment(request):
  key = request.headers["Idempotency-Key"]
  if key is missing:
    return 400

  fingerprint = hash(normalize(request.body))

  record = idempotencyStore.find(key)

  if record exists:
    if record.fingerprint != fingerprint:
      return 409 "Idempotency key reused with different payload"

    if record.status == "succeeded":
      return record.savedResponse

    if record.status == "in_progress":
      return 202 "Request is being processed"

  idempotencyStore.insert(key, fingerprint, status="in_progress")

  try:
    payment = paymentService.create(request.body)
    response = { "payment_id": payment.id, "status": "created" }
    idempotencyStore.markSucceeded(key, response)
    return 201 response
  catch transientError:
    idempotencyStore.markFailed(key)
    return 503
  catch fatalError:
    idempotencyStore.markFailed(key)
    return 400

Implementasi nyata sering perlu transaksi database atau constraint unik agar dua proses paralel tidak sama-sama lolos membuat record baru.

Webhook delivery: cepat kirim, aman diproses

Webhook sering menjadi sumber duplikasi dan ketidaksinkronan karena pengirim biasanya hanya tahu satu hal: apakah endpoint Anda merespons atau tidak. Jika respons 2xx tidak diterima, pengirim akan mencoba lagi. Itu artinya delivery webhook hampir selalu harus dianggap at least once, bukan exactly once.

Prinsip webhook yang tahan gangguan

Verifikasi signature sebelum memproses.
Segera ack jika event valid dan sudah disimpan ke antrean internal.
Dedup berdasarkan event ID, bukan payload mentah saja.
Pastikan handler idempoten.
Jangan lakukan pekerjaan berat di thread HTTP jika tidak perlu.

Contoh alur aman

Terima webhook.
Validasi tanda tangan dan timestamp jika tersedia.
Simpan event mentah + event_id ke tabel inbox atau queue internal.
Balas 2xx secepat mungkin.
Worker memproses event dengan dedup check.
Jika event terkait resource yang belum siap, lakukan retry internal dengan backoff.

POST /webhooks/payment-provider HTTP/1.1
X-Signature: sha256=...
X-Event-Id: evt_12345
Content-Type: application/json

{
  "type": "payment.completed",
  "payment_id": "pay_987",
  "order_id": "ORD-20260609-001"
}

Kesalahan umum pada webhook

Menganggap webhook hanya dikirim sekali.
Mengikat logika bisnis langsung ke respons HTTP webhook.
Menghapus event duplikat tanpa mengecek apakah proses pertama benar-benar selesai.
Tidak menyimpan payload asli sehingga sulit audit saat terjadi sengketa data.

Desain response dan error yang aman

API yang andal tidak hanya memberi status code benar, tetapi juga membantu client mengambil keputusan yang aman setelah kegagalan.

Bedakan tipe kegagalan

400/422: request salah, jangan retry tanpa perubahan.
401/403: masalah autentikasi/otorisasi, retry otomatis biasanya tidak berguna.
409: konflik, misalnya idempotency key dipakai dengan payload berbeda.
429: terlalu banyak request, client sebaiknya menunda sesuai kebijakan rate limit.
500/502/503/504: indikasi gangguan sementara, kandidat retry jika operasinya aman.

Sertakan metadata yang membantu rekonsiliasi

Respons error dan sukses idealnya punya informasi seperti:

request_id untuk pelacakan lintas sistem,
idempotency_key yang dipantulkan kembali jika digunakan,
resource_id bila resource sudah tercipta,
retryable jika Anda memang mendefinisikan kontrak itu secara eksplisit,
tautan atau endpoint untuk memeriksa status akhir.

HTTP/1.1 202 Accepted
Content-Type: application/json
X-Request-Id: req_01J...

{
  "status": "processing",
  "request_id": "req_01J...",
  "idempotency_key": "7f3b6c8d-9d5f-4e11-a4f2-3bd2b0f4811f",
  "status_url": "/payments/status/req_01J..."
}

Pola 202 Accepted berguna jika proses memang asinkron dan hasil final tidak bisa dijamin dalam batas waktu request sinkron.

Anti-pattern yang sering membuat API cepat tapi rapuh

1. Timeout terlalu pendek demi angka latency bagus

Ini menurunkan latency rata-rata di dashboard, tetapi menaikkan retry dan kegagalan semu. Metrik tampak bagus sampai downstream sedikit lambat.

2. Retry di setiap layer

Client retry, API gateway retry, service retry, database driver retry. Satu kegagalan kecil bisa berubah menjadi ledakan trafik berlipat. Tentukan layer mana yang boleh retry dan untuk kondisi apa.

3. Menganggap POST tidak perlu idempotensi

Justru operasi create/charge/submit paling membutuhkan idempotensi karena memiliki efek samping.

4. Mengembalikan 500 untuk semua kasus

Client tidak bisa membedakan apakah perlu memperbaiki payload, menunggu, atau memeriksa status resource yang mungkin sudah terbuat.

5. Memproses webhook secara sinkron dan berat

Ini memperbesar peluang timeout di pihak pengirim dan memicu redelivery, sehingga event yang sama diproses berulang.

6. Tidak punya mekanisme rekonsiliasi

Saat hasil request tidak diketahui, satu-satunya cara aman adalah bisa mengecek status akhir berdasarkan request_id, idempotency_key, atau resource key lain yang stabil.

Kapan optimasi latency justru merusak reliabilitas?

Optimasi latency merusak reliabilitas ketika targetnya terlalu sempit: hanya mempercepat jalur sukses, bukan keseluruhan pengalaman saat sistem tertekan. Contoh:

Memotong timeout tanpa mengubah desain retry.
Memaksa semua operasi sinkron agar respons cepat, padahal downstream lambat dan hasil final sering tidak pasti.
Menghapus penyimpanan idempotency karena dianggap menambah overhead kecil.
Menolak queue atau status polling karena ingin satu endpoint selalu langsung selesai.

Jika biaya pengulangan transaksi, sengketa data, atau investigasi insiden lebih tinggi daripada tambahan beberapa milidetik atau satu write ekstra, maka optimasi tersebut salah sasaran.

Tujuan yang lebih sehat: minimalkan latency yang aman, bukan latency semu yang dicapai dengan membuang mekanisme proteksi.

Pola arsitektur yang lebih tahan produksi

Sinkron untuk penerimaan, asinkron untuk penyelesaian

Untuk operasi yang mahal atau melibatkan pihak ketiga, pertimbangkan pola berikut:

Terima request dengan idempotency key.
Simpan intent atau command secara durabel.
Kembalikan 202 Accepted + status URL.
Worker memproses dengan retry dan backoff terkontrol.
Webhook atau polling memperbarui status akhir.

Pola ini mengurangi tekanan untuk menyelesaikan semua hal dalam satu request sinkron yang rentan timeout.

Outbox/inbox untuk integrasi antarsistem

Jika service Anda harus menyimpan data lokal lalu menerbitkan event, pola outbox membantu mencegah kondisi “database sukses, event gagal terkirim”. Di sisi penerima, pola inbox membantu dedup event masuk dan mencatat status proses.

Debugging dan observability

Masalah retry dan partial success sulit dianalisis tanpa observability yang tepat. Minimal, catat:

request_id dan correlation_id lintas service,
idempotency_key,
jumlah attempt retry,
penyebab timeout: connect, read, total deadline,
hasil akhir operasi bisnis, bukan hanya status HTTP.

Metrik yang berguna:

retry rate per endpoint,
duplicate suppression rate,
jumlah request dengan unknown outcome,
webhook redelivery count,
rasio 202 ke final success/failure,
P95/P99 latency, bukan hanya rata-rata.

Untuk pengujian, jangan hanya load test jalur sukses. Uji juga:

respons hilang setelah commit,
duplicate request paralel,
downstream lambat 2-3 detik,
packet loss atau jitter,
webhook terkirim dua kali atau tidak berurutan.

Checklist implementasi

Tentukan operasi mana yang boleh di-retry dan dokumentasikan.
Gunakan timeout berbeda untuk connect dan response, serta sesuaikan dengan deadline total.
Terapkan exponential backoff dengan jitter.
Batasi retry budget agar tidak memperburuk overload.
Tambahkan Idempotency-Key untuk operasi yang punya efek samping.
Simpan idempotency record secara durabel dan cek konflik payload.
Sediakan endpoint atau mekanisme untuk cek status saat outcome tidak diketahui.
Desain webhook sebagai at least once delivery; dedup berdasarkan event ID.
Kembalikan status code yang membedakan error permanen dan sementara.
Catat request_id, attempt, timeout cause, dan hasil bisnis untuk audit.
Uji duplicate, partial success, dan gangguan jaringan sebelum produksi.

Penutup

API cepat tapi rapuh biasanya lahir dari fokus berlebihan pada jalur ideal. Sistem memang bisa terasa sangat cepat di benchmark lokal, tetapi produksi menuntut sesuatu yang berbeda: kontrak yang jelas saat gagal, retry yang disiplin, timeout yang realistis, dan idempotensi yang konsisten. Jika Anda membangun integrasi yang menyentuh pembayaran, order, notifikasi, atau sinkronisasi data, reliabilitas bukan lawan performa. Reliabilitas adalah syarat agar performa benar-benar bermakna di dunia nyata.

Quick Search

shopping_cart Keranjang