Model LLM Mana yang Paling Jago Bahasa Indonesia? Catatan dari Pengujian Saya
Tidak semua model frontier setara dalam bahasa Indonesia. Ringkasan pengamatan dari pemakaian harian: mana yang luwes, mana yang kaku, dan mana yang murah tapi memadai.
Oleh Fajar M Reza
Benchmark internasional jarang mengukur hal yang penting bagi kita: kualitas bahasa Indonesia. Padahal perbedaannya nyata — ada model yang menulis seperti penutur asli, ada yang terasa seperti hasil terjemahan mesin tahun 2015.
Dari pemakaian harian saya untuk dokumen kerja, surat resmi, ringkasan peraturan, dan tulisan santai, polanya cukup konsisten. Model frontier komersial (Claude, GPT, Gemini) berada di level tertinggi: luwes, paham register formal-informal, dan jarang salah idiom. Perbedaan di antara ketiganya lebih soal selera gaya daripada kemampuan.
Kelas open model: kejutan dari timur
Di kalangan model open-weight, Qwen secara konsisten paling nyaman dipakai berbahasa Indonesia — tidak mengejutkan mengingat fokus multibahasa Alibaba di Asia. DeepSeek menyusul: sangat kompeten secara substansi, sesekali kaku dalam gaya.
Untuk model lokal kecil yang jalan di laptop, ekspektasinya harus realistis: ringkasan, klasifikasi, dan draft kasar sudah baik; menulis final yang halus sebaiknya tetap ke model besar — atau diedit manusia.
Rekomendasi praktis
Untuk tulisan yang dibaca publik: model frontier, lalu edit manusia. Untuk pemrosesan internal bervolume besar: DeepSeek atau Qwen via API yang murah. Untuk data sensitif: Qwen lokal via Ollama. Skor lengkap tiap model ada di rubrik Review Model di situs ini.