Data Covid-19 Indonesia: Terlalu Dini untuk Dianalisis

Tulisan ini menjajaki kemungkinan untuk menganalisis data Covid-19 Indonesia dari perspektif orang yang awam dalam bidang epidemiologi dan hanya mampu mengandalkan akal sehat sebagai alat kajian. Latar belakangnya, laporan mengenai kasus baru terkonfirmasi Covid-19 di Jepang yang berjumlah sebanyak 515 orang pada 5/5/2020. Bagi penulis ini mengagetkan karena Jepang terkenal sigap ketika merespons rekomendasi WHO terkait dengan upaya pengendalian penyebaran Covid-19. Sejauh ini Jepang dinilai secara luas relatif sangat berhasil dalam  upaya ini. Keberhasilan ini pada umumnya dipahami terkait dengan budaya masyarakat Jepang yang terkenal sangat disiplin, taat-perintah, dan mencintai kebersihan; mungkin karena pengalaman historisnya.

Sulit Diduga

Bagi penulis fakta di atas merupakan isyarat-kuat bahwa pola penyebaran wabah Covid-19 masih sangat sulit diduga. Ini berati pengetahuan kita mengenai Covid-19 masih perlu terus diperbaharui. Ini juga berarti hasil analisis datanya perlu selalu dilabeli bersifat sementara. Pada analisis terakhir, ini juga berarti hikmah untuk bersikap rendah hati sesuai wejangan ourwoldindata:

 Most of our work focuses on established problems, for which we can refer to well-established research and data. COVID-19 is different. All data and research on the virus is preliminary; researchers are rapidly learning more about a new and evolving problem. It is certain that the research we present here will be revised in the future.

Bukan Tanpa Fakta

Bahwa data Covid-19 sulit diduga bukan bukan tanpa fakta, tidak sekadar berdasarkan kasus tunggal Jepang, tetapi berbasis data yang luas. Sebagai ilustrasi, sebulan lalu, siapa yang dapat menduga, per tanggal 7/4/2020, Cina (dengan total kasus sekitar 82,000) akan “dikalahkan” oleh Amerika Serikat (367,000), Spanyol (137,000), Italia (133,000), Jerman (103,000) dan Prancis (98,000) dalam hal total kasus Covid-19 tetapi itulah faktanya. Grafik 1 mendukung argumen ini.

Grafik itu pada prinsipnya menunjukkan pergerakan data kasus Covid-19 masih sangat dinamis. Bagi penulis implikasinya jelas: datanya belum dapat dibaca dan  “arahnya bisa ke mana saja” istilah WHO. Ini berlaku bagi semua negara yang diperbandingkan, termasuk Indonesia (terletak dalam baris-5, kolom-5), walaupun agaknya dengan hanya satu kekecualian yaitu Cina (pojok kanan-bawah). Cina adalah satu-satunya negara yang datanya sudah ajek (stabil) walaupun belum stasioner karena masih ditemukan kasus (32 kasus pada 7/4/2020). Bagi penulis catatan ini perlu khususnya bagi yang suka mengutak-katik data Covid-19. Sebagai catatan, grafik itu menyajikan data kasus per hari, bukan data kumulatif yang tidak tepat digunakan untuk memprediksi[1].

Grafik 1: Kasus Covid-19 di 49 Negara Terpilih

Sumber: Towardsdatascience

Grafik 2 dan 3 membandingkan data Cina dan Indonesia. Perbandingan kedua grafik ini menunjukkan dua kontras yang saling berkaitan: (1) Cina memiliki 116 titik pengamatan, Indonesia hanya 35 titik pengamatan), dan sebagai konsekuensi logisnya (2) pola data China sudah relatif dapat terbaca, pola data Indonesia masih jauh dari kondisi itu.

Grafik 2: Kasus Terkonfimasi Covid-19, Cina, 31/12/2019-26/3/2020

Sumber: Diolah dari Worldindata

Grafik 3: Kasus Terkonfimasi Covid-19 Indonesia, 1/3/2020-4/4/2020

Sumber: Diolah dari Wolrdindata

Kesimpulan

Mengingat datanya sulit diduga dan menimbang titik pengamatan masih sedikit sehingga datanya belum dapat terbaca maka kesimpulannya terlalu dini menganalisis data Indonesia apalagi untuk memprediksi masa depan dalam jangka pendek. Jika dipaksakan maka hasilnya, semata-mata dalam terang akal sehat, hampir dapat dipastikan terlalu spekulatif.

Wallahualam…@

[1] Lihat https://uzairsuhaimi.blog/2020/04/05/covid-19-problems-cumuative-data/

Data Covid-19: Masalah Analisis Data Kumulatif

Sebagian besar Website kredibel yang menyediakan informasi mengenai Covid-19 pada umumnya menyajikan grafik data kumulatif (harian) sebagai sajian utama. Grafik 1 dan 2 mengilustrasikan grafik yang dimaksud. Yang menjadi keprihatinan tulisan ini adalah bahwa grafik semacam itu bagi sebagian sangat menggoda untuk mengajukan pertanyaan kapan kasusnya mencapai puncak dan turun.

Pertanyaan semacam itu sebenarnya tidak pada tempatnya (misplaced) sejauh data yang digunakan adalah data kumulatif. Tulisan ini menjelaskan secara singkat kenapa demikian[1]. Tulisan ini didedikasikan khususnya bagi teman-teman sejawat yang bersemangat mengutak-katik data Covid-19. Kunci permasalahan terletak pada pemahaman yang jernih mengenai sifat data kumulatif.

Data Kumulatif

Data kumulatif kasus Covid-19 menunjukkan jumlah atau seluruh kasus Covid-19 pada suatu waktu (katakanlah t) terhitung mulai hari pertama merebaknya kasus itu (t=0). Jika c(t) adalah data kumulatif yang dimaksud maka

c(t) = c(t-1) + d(t)…. (1)

di mana

c(t-1) : kasus kumulatif sebelumnya, dan

d(t): kasus baru hari ke-t. (t >=0: selalu positif dan monoton.)

Grafik 1: Perkiraan Kasus Covid-19 dan yang Tersembuhkan

 

Grafik 2: Perkembangan Kasus Covid-19 di Beberapa Negara

 

Beberapa implikasi dari dari Rumus (1) adalah sebagai berikut:

  • Kasus baru selalu positif atau nol: d (t)>=0.
  • c(t)>=c(t-1) dalam semua kondisi
  • c(t)=ct(t-1) jika dan hanya jika d(t)=0; artinya, dalam kondisi tidak ada lagi kasus baru atau pandemik sudah benar-benar berakhir

Beberapa implikasi lebih lanjut:

  • Berdasarkan (1), kasus kumulatif tidak pernah turun.
  • Berdasarkan (3), data kumulatif tidak memiliki titik puncak; yang ada adalah garis lurus yang menunjukkan himpunan titik maksimum dalam jumlah yang tak terhingga karena sifat monoton dari waktu (t).
  • Juga berdasarkan (3), jika d(t)=0 maka
    • c(t)-c(t-1) = 0 dan
    • c(t)/c(t-1)=1

Sebagai catatan, implikasi ke-6 menunjukkan secara intuitif bahwa r– yang menurut definisi fungsi dari hubungan c(t) dan c(t-1)– selalu non-negatif, r>=0.

Kesimpulannya jelas: keliru jika berharap kurva data kumulatif sebagaimana diilustrasikan oleh Grafik 1 dan Grafik 2 akan mencapai titik puncak dan turun.

Model Statistik

Pertanyaannya, apakah dengan menggunakan  model statistik kita dapat berharap dapat menurunkan kurva data kumulatif? Jawabannya, tidak. Berikut adalah penjelasan singkatnya.

Dengan mencermati Grafik 2 kita mungkin menduga pola pergerakan data mengikuti fungsi eksponensial atau keluarganya. Dugaan ini kemungkinan besar benar. Yang salah adalah berharap kurva akan turun. Jawabannya sekali lagu tidak. Berikut alasan singkatnya

Model umum fungsi ini dapat dinyatakan dalam rumus

c(t)= c(t-1)exp(rt) … (2)

di mana r adalah angka pertumbuhan.

Berdasarkan rumus rumus c(t) akan dan hanya akan turun jika exp(rt) <0. Tetapi menurut definisi ini mustahil karena menurut definisi exp(n)>=0 untuk setiap nilai n (positif atau negatif). Sebagai ilustrasi, exp(-100 = 1/exp(100).

Pertanyaan berikutnya, apak model yang lebih canggih seperti fungsi polynomial bisa negatif dapat membuatnya turun? Sekali lagi, sekali lagi, jawabannya tidak. Dalilnya seperti yang terungkap dalam wejangan mbah wiki, Every cumulative distribution function is non-decreasing and right-continuous….”

…..keliru  berharap kurva data kumulatif akan mencapai titik puncak dan turun.

Kesimpulan Logis

Kesimpulan logis dari tulisan ini dapat dinyatakan dalam tiga macam kekeliruan:

  • Kekeliruan 1: Menggunakan data kumulatif untuk memahami pola pergerakan data Covid-19 apalagi untuk membuat memprediksi ke depan.
  • Kekeliruan 2: Mengajukan pertanyaan kapan kasus Covid-19 mencapai puncak dan turun sejauh menggunakan data kumulatif.
  • Kekeliruan 3: Berharap model statistik dapat menjawab pertanyaan keliru itu.

Wallahualam….@

[1] Penulis berterima kasih kepada Bapak Farid M. Noor dan Bapak Sodikin atas ketulusan mereka melayani penulis berkonsultasi ketika menyiapkan tulisan ini. Keduanya adalah pakar statistik dan dosen di perguruan tinggi terkemuka di ngeri ini.

Covid-19 Indonesia: Menduga Kasus Berdasarkan Angka Kematian

Kalau Anda menganggap judul di atas sensasional maka Anda tergolong normal karena secara normal pola pikir kita begini: berapa kasusnya, berapa yang meninggal, dan berdasarkan pengetahuan ini menarik kesimpulan mengenai angka kematian. Tapi pandemi Covid-19 belum normal, pergerakan angkanya masih sangat dinamis dan arahnya masih sulit diduga, can go any direction (kata DG WHO). Akibatnya, untuk memperoleh angka yang masuk akal, kita dituntut untuk berpikir supra normal. Inilah yang ingin disodorkan oleh tulisan ini.

Data Dasar

Menurut Worldmeter, di Indonesia total kasus Covid-19 (=c) per tanggal 1 April 2020 pukul 09.50 GMT ada sebanyak 1,677 kasus dan yang meninggal (=d) sebanyak 157 kasus. Jika angka kematian (=CFR) kita hitung berdasarkan dua angka ini maka CFR=d/c=9.4%. Yang wajib-segara-catat, seperti yang akan dijelaskan secara singkat dalam tulisan ini, rasio itu sangat ketinggian, highly overestimate. Argumennya plain and simple: penyebut dari rasio ini, angka c, sangat kerendahan atau highly underestimate. Tulisan ini dimaksudkan utamanya untuk menunjukkan hal itu berdasarkan beberapa asumsi dan logika sederhana.

Asumsi

Dari banyak sumber informasi dapat diakses bebas melalui berbagai media kita menemukan banyak variasi angka terkait dengan Covid-19 ini: angka kematian (=CFR), selang waktu antara terinfeksi dan meninggal (=s), dan waktu-ganda (=k, doubling time). Tulisan ini mengambil posisi moderat, memilih angka-angka moderat. Asumsinya: (1) CFR=1%, (2) s=20 hari dan (3) k=5 hari. Tulisan ini juga berasumsi angka kematian yang dilaporkan di atas (d=157) menggambarkan keadaan yang sebenarnya. Ini asumsi ke-4. Ini semua asumsi awal yang perlu diperbaiki sesuai hasil perhitungan terakhir (disajikan pada bagian akhir tulisan).

Angka Kasus yang Kerendahan

Berapa kasus Covid-19 di Indonesia yang sebenarnya? Wallahualam. Yang pasti tidak ada bukti keras (hard evidence) mengenai angka kasus sebenarnya dalam arti berbasis penduduk (population-based). Ini berlaku bagi Indonesia maupun di negara lain termasuk negara-negara maju. Yang diketahui adalah kasus yang dilaporkan, reported case (=rc).

Karena tidak semua orang diperiksa statusnya apakah terinfeksi Covid-19 atau tidak, maka kasus yang dilaporkan (=rc) pati lebih kecil dari kasus yang sebenarnya (=c>cr). Lebih dari itu, orang yang diperiksa belum tentu teridentifikasi positif terinfeksi semata-mata karena yang bersangkutan belum menunjukkan gejalanya: yang teridentikasi bias ke kasus yang sudah parah. Singkat kata, angka kasus yang kita ketahui sangat kerendahan.

Menduga Kasus Sebenarnya

Saatnya kita menduga kasus Covid-19 berdasarkan 4 asumsi di atas.

  1. Karena diasumsikan CFR=1% (asumsi ke-1) maka 157 kasus yang dilaporkan (asumsi ke-4) meninggal patut diduga berasal dari 15,700 kasus yang terinfeksi.
  2. Karena diasumsikan s=20 maka 15,700+ kasus infeksi itu adalah kasus terinfeksi 20 hari yang lalu, c(t-20), 12-13 Maret 2020 lalu.
  3. Dengan pola pikir yang sama, dan dengan asumsi k=5, maka kasus-kasus c(t-15), c(t-10), c(t=5) dan c(t) dapat diduga masing-masing sebagai berikut:
    • c(t-15), atau 17-18 Maret 2020: 31,400+ (=15,700×2),
    • c(t-10), atau 21-22 Maret 2020: 62,800+ (=31,400 x 2),
    • c(t-5), atau 26-27 Maret 2020  : +125,600 (=62,800 x 2), dan
    • c(0), 1 April 2020: +251,200 (=125,600 x 2).

Dengan dengan d=157 dan c(t)=251,200, maka CFR = (157/251,200) =0.06% atau lebih rendah. Jadi, asumsi awal, CFR=1%, masih terlalu ketinggian. Yang wajib-segera-catat, hitungan-hitungan di atas perlu dilihat sebagai angka sementara. Alasannya, dalam konteks ini kita semua perlu rendah hati untuk mengamini nasehat ourwoldindata:

Most of our work focuses on established problems, for which we can refer to well-established research and data. COVID-19 is different. All data and research on the virus is preliminary; researchers are rapidly learning more about a new and evolving problem. It is certain that the research we present here will be revised in the future.

*****

Sebagai catatan akhir, Anda mungkin menganggap enteng angka itu, CFR=0.625%. Walaupun anggapan itu sah-sah saja tetapi itu tidak dapat digunakan sebagai pembenaran untuk tidak hati-hati. Argumennya plain and simple: kemungkinan Anda terkena terinfeksi Covid-19 >0; demikian juga kemungkinan Anda menularkan kepada orang lain atau meninggal karena terinfeksi Covid-19.

Wallahualam….@

Covid-19 Indonesia: Seberapa Cepat Penularannya?

Kasus Coivid-19 di Indonesia kemarin (26/3/2020) dilaporkan bertambah sebanyak 103 kasus dibandingkan dengan hari sebelumnya; akibatnya, total kasus (kumulatif) sampai pada tanggal itu menjadi 809 kasus. Pertanyaannya, seberapa cepat penularannya. Tulisan ini mencoba menjawab pertanyaan ini untuk kasus Indonesia berdasarkan data dari sumber yang dapat dipercaya.

Masih terus meningkat

Grafik 1 menyajikan gambar besar perkembangan kasus Convid-19 di Indonesia selama 25 hari terakhir: 2-26 Maret 2020. Pesannya jelas: kasusnya terus meningkat setiap hari. Kasus hanya 2 pada 2/3/2020, angkanya terus meningkat sehingga pada 25/3/2020 jadi 893 kasus. Dengan kata lain, selama periode itu terjadi peningkatan kasus hampir 450 kali atau pertambahan 18 kasus per harinya. Yang terakhir adalah angka rata-rata.

Grafik 1: Kasus Covid-19 di Indonesia, 2-26 Maret 2020

Yang perlu dicatat, angka rata-rata ini (18 kasus per hari) dapat menyesatkan karena pertambahan kasus tidak merata. Sebagai contoh ekstrem, dalam tiga hari terakhir, pertambahan per hari lebih dari 100 kasus.  Selain itu, seperti tampak pada grafik itu, perkembangan kasus antar hari tidak linear atau non-linear. Karena pola non-linear ini maka perkiraan kasusnya di masa depan sulit diprediksi dan perlu dibaca ekstra hati-hati. Walaupun sadar akan kesulitan itu, penulis mencoba membuat model prediksi dan hasilnya disajikan pada Grafik 2.

Grafik 2: Model Prediksi Kasus Covid-19 di Indonesia

Dalam grafik 2, x merujuk pada satuan waktu (hari): x=1 bertepatan dengan 2/3/2020, x=25 dengan 26/3/2020. Angka 81.127 merujuk pada nilai prediksi ketika x=0.

Seperti yang diperlihatkan grafik, prediksi ini sangat overestimate untuk x<3 dan sedikit underestimate untuk x>23. Walaupun demikian, sejauh pengalaman penulis dengan berbagai skenario lain, model itu paling cocok dengan data, the best-fiited model kata orang statistik. Indikasinya nilai R2 yang mendekati angka 1.

Model ini dapat digunakan untuk prediksi. Jadi, jika x=50 (hari ke-50 mulai dari 2/3/2020), misalnya, dengan asumsi tidak ada intervensi, maka kasus Covid-19 diprediksi berjumlah sekitar 4,800.

Waktu Ganda

Cara sederhana untuk menghitung seberapa cepat penyebaran suatu virus adalah dengan menghitung waktu ganda (double time) penyebaran kasusnya. Logikanya, semakin pendek waktu-ganda, semakin cepat penularannya, dan sebaliknya. Untuk menelisik waktu ganda ini kita dapat memilah kasus sebagaimana ditunjukkan oleh Grafik 1 Covid-19 ke dalam beberapa periode waktu.

  • 10-12 Maret, kasus berganda (2.0 kali) dari 34 ke 69 kasus; waktu-ganda 2 hari.
  • 12-14 Maret, kasus “berganda” (1.7 kali) dari 69 ke 117 kasus; “waktu-ganda” 2 hari.
  • 14-17 Maret, kasus “berganda” (1.9 kali) dari 117 ke 227 kaus; waktu-ganda 3 hari.
  • 17-20 Maret, kasus berganda (2.0 kali) dari 227 ke ke 450 kasus; waktu-ganda 3 hari, dan.
  • 20-25 Maret, kasus meningkat (2.0) dari 453 ke 893 kasus; waktu-ganda 5 hari.

Jika pola ini berlanjut maka kesimpulan logisnya ini: waktu-ganda makin lama dan ini berarti laju kenaikan (pace of increase) melambat. Yang perlu ditegaskan, perlambatan laju kenaikan tidak berarti penurunan jumlah kasus.

Apakah perlambatan waktu-ganda merefleksikan keberhasilan relatif kebijakan social distancing?

Wallahualam….@

 

Kinerja Ekonomi Indonesia dalam ASEAN

Banyak indikator yang bisa digunakan untuk mengukur kinerja ekonomi yang salah satunya adalah pendapatan nasional bruto (selanjutnya GNI; nama baru untuk GNP). Tulisan ini menggunakan indikator GNI per kapita (selanjutnya GNI-Cap) untuk menjawab dua pertanyaan ini: (1) Dari sisi kinerja ekonomi, bagaimana posisi Indonesia di tengah negara-negara ASEAN? dan (2) Bagaimana trennya selama periode 2000-2015?

GNI-Cap yang digunakan dalam tulisan ini diperoleh dari Bank Dunia yang menghitungnya menggunakan Metode Atlas. GNI dengan metode ini dipilih karena dua pertambangan. Pertama, dibandingkan GDP (atau PDB), GNI telah mengabaikan nilai produk perusahaan asing yang profitnya mengalir ke luar negeri sehingga lebih realistis dalam mengukur kinerja ekonomi suatu negara, ketimbang GDP. Kedua, ini serius dari sisi teknis statistik, Metode Atlas telah “menghaluskan” dua faktor yang umumnya menggangu perbandingan neraca nasional yaitu “fluktuasi harga dan nilai tukar”[1]:

To smooth fluctuations in prices and exchange rates, a special Atlas method of conversion is used by the World Bank. This applies a conversion factor that averages the exchange rate for a given year and the two preceding years, adjusted for differences in rates of inflation between the country, and through 2000, the G-5 countries (France, Germany, Japan, the United Kingdom, and the United States). From 2001, these countries include the Euro area, Japan, the United Kingdom, and the United States.

Variasi dan Ketimpangan

Tabel 1 memotret kinerja ekonomi 10 negara ASEAN selama 15 tahun pertama abad ke-21, 2000-2015, periode MDGs. Tabel itu menunjukkan besarnya variasi dan lebarnya kesenjangan kinerja ekonomi antar negara. Sebagai ilustrasi, rasio GNI-Cap Singapura/ Vietnam 2000 angka hampir mencapai 58. Angka ini mencerminkan sangat lebarnya variasi kinerja ekonomi negara-negara ASEAN. Ini Sebagai ilustrasi lain, rasio GNI-Cap Indonesia/Malaysia 2015 angkanya lebih dari 3. Ilustrasi kedua ini menegaskan lebarnya kesenjangan kinerja karena telah mengabaikan kinerja dari dua negara “raksasa” ASEAN yaitu Brunei dan Singapura.

Tabel 1: GNI-Cap 10 Negara ASEAN 2000-2015 (Metode Atlas) (Ribuan US$)

Tabel 1 juga memperlihatkan semua negara ASEAN mengalami peningkatan kinerja selama periode 2000-2015 tetapi dengan tiga catatan:

  • Brunei dan Indonesia mengalami sedikit penurunan kinerja dalam kurun 2013-15,
  • Penurunan serupa dialami Malaysia, Singapura dan Thailand, selama kurun 2014-15, dan
  • Penurunan agak drastis dialami Timor-Leste periode 2013-14, membaik dalam tahun berikutnya tetapi belum mencapai level 2013.

Singkatnya, pada tahun 2013 atau 2014, semua negara ASEAN mengalami sedikit penurunan kinerja ekonomi kecuali Kamboja, Laso, Filipina dan Vietnam.

Pada tahun 2013 atau 2014, semua negara ASEAN mengalami sedikit penurunan kinerja ekonomi kecuali Kamboja, Lao, Filipina dan Vietnam.

Kinerja ekonomi Singapura (SGP) dan Brunei (BRN) relatif sangat tinggi, terlalu tinggi untuk ASEAN secara keseluruhan. Hal ini tercermin dari, misalnya, angka rata-rata dengan GNP-Cap ASEAN 2015 yang mencapai angka lebih dari US$12,000 jika kedua negara itu diikutsertakan, dan hanya sedikit di atas US$ 3,000 jika keduanya diabaikan. Singkatnya, GNI-Cap kedua negara itu memberikan kesan berlebihan mengenai kinerja ekonomi ASEAN secara keseluruhan.

Tanpa Negara “Raksasa”

Gambaran kinerja ASEAN terkesan lebih realistis tanpa dua negara “raksasa” (SGP dan BRN) sebagaimana diilustrasikan oleh Grafik 1. Pada grafik ini, kinerja Indonesia dijadikan rujukan dengan cara memberikan nilai tetap 100 untuk setiap tahunnya. Ini berarti kinerja ekonomi Indonesia selama 2000-15 diasumsikan konstan relatif terhadap perubahan kinerja ekonomi negara lainnya yang diperbandingkan. Grafik itu menunjukkan paling tidak tiga hal:

  • Indonesia (IDN) selalu di atas Kamboja (KHM), Laos (LAO), Vietnam (VNW) dan Timor-Leste (TLS),
  • IDN selalu di bawah Malaysia (MYS) dan Thailand (THI) selalu di atas Indonesia, dan
  • Perkembangan kinerja ekonomi MYS dan THI relatif lebih lambat dibandingkan dengan kinerja IDN.

Grafik 1: Indeks GNI-Cap Negara-negara ASEAN (Indonesia=100)

Grafik itu juga mengisyaratkan kinerja IDN tidak akan melampaui kinerja MYS dalam beberapa dekade mendatang. Bagaimana dengan THI dan PHL? Grafik 2 menyajikan prediksi bahwa kinerja IDN tidak akan mampu  melampaui kinerja THI paling tidak sampai tahun 2030,  melampaui PHL mulai 2011 dan terkejar lagi di 2015. Sebagai catatan, koefisien regresi negatif pada Grafik 2 menegaskan penurunan kinerja THI relatif terhadap perkembangan kinerja IDN. Selain itu, dalam persamaan nilai x=0 untuk 2000, x=1 untuk 2011, dan seterusnya.

… kinerja IDN tidak akan mampu mengejar kinerja THI paling tidak sampai tahun 2030, melampaui PHL mulai  2011 tetapi terkejar lagi di 2015.

Grafik 2: Indeks GNI-Cap Indonesia, Filipina dan Thailand (Indonesia=100)

Pertanyaan: Apakah investasi infrastruktur di luar Jawa selama ini akan berdampak terhadap kinerja IDN sedemikian rupa sehingga mampu mengejar THI sebelum era SDGs berakhir?

Wallahualam...@

[1] https://databank.worldbank.org/indicator/NY.GDP.MKTP.KD.ZG/1ff4a498/Popular-Indicators

Kecukupan Sampel Survei Hitungan Cepat Pilpres 2019

Sumber Gambar: Google

Sebagian pembaca hasil Hitung Cepat (quick count) Pilpres 2019 mempertanyakan kecukupan sampel TPS. Pertanyaan ini muncul karena tidak tersedanya di ruang publik informasi yang memadai mengenai rancangan sampel survei yang bersangkutan. Terkait dengan isu ini penulis, sebagai ilustrasi, hanya mengetahui bahwa besar sampelnya sekitar 2,000 TPS (=n) yang diambil dari sekitar 800,000 TPS (=N).

Pertanyaan risetnya  “Apakah sampel n itu sudah mewakili populasi N itu?” Pertanyaan semacam mencerminkan suatu keraguan positif yang layak dihargai. Penulis yakin para perancang survei Hitung Cepat sudah mengkaji masalah ini. Walaupun demikian, keyakinan agar mantap, seperti nasehat para  ustaz, perlu diuji. Tulisan ini dimaksudkan untuk keperluan uji semacam itu.

Soal Heterogenitas

Pertanyaan riset di atas sebenarnya tidak tepat. Kenapa? Karena penetapan besar sampel tidak dipengaruhi oleh besar populasi; kalau pun ada, pengaruhnya sangat kecil sehingga bisa dan biasa diabaikan. Ilustrasi mengenai pengaruh ini disajikan di bawah. Untuk sementara dapat dikatakan bahwa sampel tidak harus that big, tetapi big enough untuk mewakili populasi, ada batas minimum.

Kenapa sampel tidak harus selalu besar? Penjelasannya sederhana. Ketika memeriksakan diri  untuk mengetahui kadar gula darah Anda, misalnya, Anda cukup memberikan kurang dari setetes darah Anda, terlepas dari apakah Anda tergolong gemuk-basah atau kurus-kering. Ya kan? “Kurang dari setetes darah” sudah sudah mewakili keseluruhan darah yang mengalir dalam tubuh Anda. That is the beauty of sampling.

Tapi nanti dulu. Contoh di atas mengasumsikan homogenitas populasi. Artinya, dari bagian badan mana pun darah diambil, hasilnya diasumsikan sama saja. Jika dianalogikan dengan Pilpres, teknik ini mengasumsikan kesamaan kecenderungan preferensi para pemilih di semua TPS. Jadi, preferensi pemilih di Kota Bandung atau Kota Padang, misalnya, diasumsikan sama dengan Kabupaten Sidoarjo atau Kota Kupang.

Asumsi semacam ini layak dipertanyakan. Demikian halnya dengan teknik “pengambilan acak sederhana” (Simple Random Sampling, SRS) yang mengasumsikan homogenitas populasi.

[Selain itu, dalam dunia nyata teknik SRS ini bisa sangat tidak nyaman dan sangat mahal. Bisa saja dari 2,000 TPS yang terpilih, lebih separuh menyebar di kawasan timur Indonesia termasuk Papua.]

Apa hubungannya dengan besar sampel? Hubungannya sederhana: semakin heterogen suatu populasi, semakin besar kebutuhan akan sampel yang besar. Jadi, hubungan antara keduanya berbanding lurus.

Proporsi dan Koefisien Variasi

Perhitungan besar sampel minimal (=n) menghendaki antara lain agar perencana sampel menetapkan indikator utama yang ingin dihitung, memperkirakan angkanya (=p), dan memperkirakan koefisien variasinya (=CV). Jadi logikanya agak berputar. Tujuan survei adalah menghitung angka proporsi populasi (=P), tetapi belum apa-apa sudah diminta macam-macam. Tetapi itulah rumusnya: n berbanding lurus dengan p dan CV.

Untungnya, angka-angka perkiraan itu tidak dituntut sangat cermat, sejauh masuk akal. Sebagai ilustrasi, jika indikator utama yang ditetapkan adalah proporsi suara Merah[1] (=p) dan angka perkiraannya 0.5 atau 50%, maka cara penetapan itu boleh dibilang excellent. Kenapa? Karena: (1) sederhana, (2) terkesan netral, dan (3) berdasar. Apa dasarnya? Hasil Pemilu 2014 yang menghasilkan angka sekitar itu.

Cara itu selain excellent sebenarnya juga cerdas. Kenapa? Karena dengan menetapkan p sebagai indikator maka variannya sudah dapat diketahui sejak dini yaitu p*(1-p). Juga dengan menetapkan p=0.5 maka koefisien variannya (=CV) relatif mudah diingat yaitu 2:

p/[p*(1-p)] = (0.5)/ [(0.5)*(1-0.5)] = 2

Komponen Pembentuk Sampel

Menurut salah satu buku pintar[2], ada lima faktor yang mempengaruhi besar sampel (n). Ini daftarnya:

  1. Tingkat keyakinan (confidence interval) yang diukur dengan skor z dalam distribusi normal,
  2. Efek rancangan sampel (=deff), dan
  3. Perkiraan awal indikator utama, misalnya, proporsi yang memilih Merah (=p).
  4. Margin kesalahan (margin error, e)
  5. Angka respons (response rate: RR)

Dua faktor yang terakhir dalam daftar di atas  mempengaruhi n secara berbanding terbalik sedangkan yang lainnya berbanding lurus. Faktor yang ke-2 (deff) agak sulit dijelaskan dalam tulisan singkat dan bahkan diakui “sulit diputuskan”[3]:

It is much more difficult to decide what the design effect should be when a cluster sample design is planned and there is no prior knowledge of the effect of clustering on the sampling variance. In this case, a design effect of at least 2 might be used, although the design effect of a highly clustered design may be as high as 6 or 7.1 for a stratified sample design and deff ≥ 1 for a cluster sample design.

Contoh penghitungan

Uraian di atas bagi sebagian mungkin terkesan jelimet walaun sebenarnya tidak, apalagi jika diilustrasikan melalui contoh konkret dan secara bertahap. Berikut disajikan ilustrasi yang dimaksud menggunakan skenario yang dibuat serealistis mungkin.

Diketahui: Total TPS (=N)= 800,000.

Pertanyaan: Berapa jumlah minimal TPS yang diperlukan untuk mengintimasi proporsi yang memilih Merah (=P)?

Diasumsikan: (a) Tingkat keyakinan (confidence interval): 95% atau z=1.96, (b) e= 5%, (c) RR=95%, (d) deff=2, dan (e) p=0.5.

Jawab:

Penetapan sampel awal (=n1):.

n1= [(z*z)*(p*(1-p))]/(e*e)

= [(1.96*1.96)*(0.5*0.5)]/(.05*.05)

= 384.16

Penyesuaian (adjustment) karena relativitas besar sampel terhadap populasi (=n2):

n2 = n1 * [N/ (N+n1)]

= 384.16 * [800,000 / (800,000+384.16)]

= 383.98

Penyesuaian karena pengaruh rancangan sampling (=deff) (=n3):

n3 = deff * n2

= 2*383.98

= 768.32

Penyesuaian arena RR (=n4):

n4 = n3/0.95

= 808.75

Itulah angka akhir, 800 TPS. (Pada tahapan sekarang sudah boleh pembulatan agar kelihatan elok.) Kesimpulannya ini:

Sampel 2,000 TPS sudah lebih dari cukup bahkan berlebihan untuk mewakili 800,000 TPS.

Tapi nanti tunggu dulu. Kesimpulan itu kondisional:

Angka 800 adalah angka minimum untuk satu domain estimasi. Jadi, jika “nian ingsun” hanya untuk estimasi nasional maka kesimpulan di atas berlaku. Tapi jika ingin estimasi provinsi maka kesimpulan tidak berlaku karena kebutuhan sampel menjadi (800*34) atau sekitar 27,000.

Diskusi di atas terakit dengan besar sampel (sample size). Bagaimana dengan alokasi sampel? Ini isu lain yang lebih kompleks tetapi dapat tergambar dalam daftar pertanyaan berikut:

  1. “Apakah alokasi sampel sudah memenuhi prinsip acak?”
  2. “Adakah jenjang dalam pemilihan sampelnya?”: (a) “Ujug-ujug milih TPS?”, atau (b) “Dipilih dulu kab./kota, kecamatan, lalu desa?”, atau (c) “Bagimana?”
  3. “Jika ada jenjang, apakah probabilitas terpilihnya setiap jenjang sudah memperhitungkan weighting?”
  4. “Apakah estimasi akhir mempertimbangkan weighting?”

Pusing toh? Yo wis!

[1] Mengenai simbolisme Merah dan Hijau lihat INI.

[2] Statistics Canada (2010), Survey Methods and Practices

[3] Ibid, halaman 168.

Membaca Hasil Hitung Cepat Pilpres

Sumber gambar: Google

#tak-beda-nyata, #rada-rada bodoh, #justifikasi

Tak-Beda-Nyata

Pemilu Indonesia 2019 baru usai. Proses pelaksanaannya relatif mulus. Ini tentu berkat rahmat-Nya yang patut disyukuri.

Hasil resminya baru akan diketahui dalam hitungan minggu. Tapi gambarannya, khususnya Pilpres, dapat diketahui secara lebih dini berdasarkan hasil hitungan cepat (quick count).

Menariknya, angka hitungan cepat yang beredar secara keseluruhan tidak-beda-nyata dengan hasil Pemilu 2014: Paslon 1 (katakanlah Merah) memperoleh angka sekitar 55%, sisanya untuk Paslon 2 (Katakanlah Hijau).

Tidak hanya itu. Sebaran provinsi juga tak-beda-nyata. Sebagai ilustrasi, JaBar yang pada 2014 Hijau, 2019 juga Hijau; kepekatan kehijauannya juga tak-beda-nyata. Sebagai ilustrasi lain, kepekatan Merah Jatim 2014 dan 2019 juga tak-beda-nyata.

[Aumsi penulis, fakta ini  digunakan oleh penyelenggara Survei Hitung cepat untuk menghitung probability terpilihnya suatu TPS serta digunakan untuk menghitung weighting . Wallahualam dalam praktiknya.]

Bagaimana menafsirkan fakta di atas? Itu bisa dimaknai sebagai “kesuksesan” atau “kegagalan” bagi Merah maupun Hijau. Tergantung cara pandang: Apakah air yang mengisi separuh gelas “tinggal separuh” atau “masih separuh” (bagi yang optimistis). Maksudnya ini: Merah sukses mempertahankan kemerahan wilayah Merah tetapi gagal memerahkan wilayah Hijau; analog dengan Hijau.

Kondisi ini sangat kontras dengan pengalaman Amerika Serikat, misalnya, di mana Hijau (Demokrat) mampu menghijaukan sebagian wilayah Merah sehingga statusnya di Kongres berubah dari minoritas menjadi mayoritas.

Apakah artinya bagi Indonesia? Tim pemenangan kurang berhasil? Kampanye Merah maupun Hijau tidak efektif?

Wallahualam. Penulis tidak punya kompetensi untuk menganalisis lebih jauh. Kompetensi penulis adalah membaca hasil Hitungan Cepat.

Rada-rada Bodoh

Jika seorang statistisi disuguhi angka hanya satu survei 55% untuk Merah dan 45% untuk Hijau maka dia tidak dapat menyimpulkan siapa pemenangnya. Bodoh kan? Padahal definisi menang dalam sistem demokrasi sangat jelas: peraih angka >=50%+1 suara.

Jika didesak untuk menyimpulkan maka statistisi akan balik tanya. Itulah susahnya berhubungan dengan statitisi. Pertanyaannya kira-kira begini: “Bapak mau mentoleir batas kesalahan (margin error, ME) berapa persen? 1%, 10%, 20% atau berapa%?:

  • Jika Bapak mentolelir ME <=10% , maka yang menang adalah Merah; tetapi
  • Jika Bapak mentolelir angka ME =20% (apalagi lebih besar), maka pemenangnya tidak ada.

Pusing kan? Itulah salah satu the beauty of statistics.

Bagi statistisi ragam angka adalah “berkah”. Juga bagi statitisi, setiap hasil survei pasti (haqqul yaqiin?) mengandung kesalahan (errors). Jadi tergantung kesediaan menerima toleransi kesalahan.

Dalam pandangan statistisi, angka 55%, dengan ME 20%, misalnya, perlu dibaca sebagai himpunan angka yang terletak antara 44 dan 66, 44%<55%<66%. Apa artinya? Rentang angkanya mencakup angka milik Hijau yaitu 45%. Apa kesimpulannya? Dua angka 45% dan 55% sebenarnya secara statitik tidak-beda- nyata (statistically insignificant).

Justifikasi

Pola berpikir statistik ini sebenarnya yang dapat digunakan untuk menjustifikasi keputusan UU pemilu untuk menggunakan “hasil perhitungan angka manual seluruh suara.

Pola berpikir statistik semacam ini menjustifikasi UU pemilu yang mengamanatkan  agar untuk memperoleh angka resmi digunakan hasil perhitungan seluruh suara secara manual.

Pola pikir yang sama sebenarnya dapat juga digunakan untuk memberikan penilaian bahwa bermacam-macam hasil hitungan cepat sebenarnya tidak beda secara statitik; robust, kata orang statistik.

Tetapi bagi sebagian ada yang mengganggu. Ini terkait dengan ketetaan penerapan kaidah statistik dalam merancang survei:

  • Apakah penetapan jumlah sampel (2000-an?) sudah mempertimbangkan berbagai faktor termasuk antisipasi response rate, antisipasi besarnya variasi jawaban (CV) dan efisiensi relatif metodologi yang diambil (Deff.)? ]

[Yang terakhir ini berlaku jika bukan Rancangan Samepl Sedehana (SRS) digunakan sebagaimana dikalim CSIS. Jika SRS, apakah asumsi heterogenitas wilayah –dalam hal kecenderungan memilih– dipertimbangkan? Apakah efisiensi biaya diperhitungkan?]

  • Apakah sampel TPS sudah memenuhi jumlah minimal yang diperlukan untuk membuat suatu kesimpulan statistik? Pada level nasional? Atau “berani” estimasi provinsi?
  • Apakah prinsip acak digunakan dalam setiap tahapan pemilihan? [Jika tidak maka kesimpulan statitik tidak dapat ditarik.]
  • Apakah hasil Pemilu 2014 dimanfaatkan untuk membangun kerangka sampel?

Jika tertarik mengenai jawaban terhadap pertanyaan-pertanyaan ini silakan baca tulisan berikutnya. (Entah kapan sempatnya?)