Kecukupan Sampel Survei Hitungan Cepat Pilpres 2019


Sumber Gambar: Google

Sebagian pembaca hasil Hitung Cepat (quick count) Pilpres 2019 mempertanyakan kecukupan sampel TPS. Pertanyaan ini muncul karena tidak tersedanya di ruang publik informasi yang memadai mengenai rancangan sampel survei yang bersangkutan. Terkait dengan isu ini penulis, sebagai ilustrasi, hanya mengetahui bahwa besar sampelnya sekitar 2,000 TPS (=n) yang diambil dari sekitar 800,000 TPS (=N).

Pertanyaan risetnya  “Apakah sampel n itu sudah mewakili populasi N itu?” Pertanyaan semacam mencerminkan suatu keraguan positif yang layak dihargai. Penulis yakin para perancang survei Hitung Cepat sudah mengkaji masalah ini. Walaupun demikian, keyakinan agar mantap, seperti nasehat para  ustaz, perlu diuji. Tulisan ini dimaksudkan untuk keperluan uji semacam itu.

Soal Heterogenitas

Pertanyaan riset di atas sebenarnya tidak tepat. Kenapa? Karena penetapan besar sampel tidak dipengaruhi oleh besar populasi; kalau pun ada, pengaruhnya sangat kecil sehingga bisa dan biasa diabaikan. Ilustrasi mengenai pengaruh ini disajikan di bawah. Untuk sementara dapat dikatakan bahwa sampel tidak harus that big, tetapi big enough untuk mewakili populasi, ada batas minimum.

Kenapa sampel tidak harus selalu besar? Penjelasannya sederhana. Ketika memeriksakan diri  untuk mengetahui kadar gula darah Anda, misalnya, Anda cukup memberikan kurang dari setetes darah Anda, terlepas dari apakah Anda tergolong gemuk-basah atau kurus-kering. Ya kan? “Kurang dari setetes darah” sudah sudah mewakili keseluruhan darah yang mengalir dalam tubuh Anda. That is the beauty of sampling.

Tapi nanti dulu. Contoh di atas mengasumsikan homogenitas populasi. Artinya, dari bagian badan mana pun darah diambil, hasilnya diasumsikan sama saja. Jika dianalogikan dengan Pilpres, teknik ini mengasumsikan kesamaan kecenderungan preferensi para pemilih di semua TPS. Jadi, preferensi pemilih di Kota Bandung atau Kota Padang, misalnya, diasumsikan sama dengan Kabupaten Sidoarjo atau Kota Kupang.

Asumsi semacam ini layak dipertanyakan. Demikian halnya dengan teknik “pengambilan acak sederhana” (Simple Random Sampling, SRS) yang mengasumsikan homogenitas populasi.

[Selain itu, dalam dunia nyata teknik SRS ini bisa sangat tidak nyaman dan sangat mahal. Bisa saja dari 2,000 TPS yang terpilih, lebih separuh menyebar di kawasan timur Indonesia termasuk Papua.]

Apa hubungannya dengan besar sampel? Hubungannya sederhana: semakin heterogen suatu populasi, semakin besar kebutuhan akan sampel yang besar. Jadi, hubungan antara keduanya berbanding lurus.

Proporsi dan Koefisien Variasi

Perhitungan besar sampel minimal (=n) menghendaki antara lain agar perencana sampel menetapkan indikator utama yang ingin dihitung, memperkirakan angkanya (=p), dan memperkirakan koefisien variasinya (=CV). Jadi logikanya agak berputar. Tujuan survei adalah menghitung angka proporsi populasi (=P), tetapi belum apa-apa sudah diminta macam-macam. Tetapi itulah rumusnya: n berbanding lurus dengan p dan CV.

Untungnya, angka-angka perkiraan itu tidak dituntut sangat cermat, sejauh masuk akal. Sebagai ilustrasi, jika indikator utama yang ditetapkan adalah proporsi suara Merah[1] (=p) dan angka perkiraannya 0.5 atau 50%, maka cara penetapan itu boleh dibilang excellent. Kenapa? Karena: (1) sederhana, (2) terkesan netral, dan (3) berdasar. Apa dasarnya? Hasil Pemilu 2014 yang menghasilkan angka sekitar itu.

Cara itu selain excellent sebenarnya juga cerdas. Kenapa? Karena dengan menetapkan p sebagai indikator maka variannya sudah dapat diketahui sejak dini yaitu p*(1-p). Juga dengan menetapkan p=0.5 maka koefisien variannya (=CV) relatif mudah diingat yaitu 2:

p/[p*(1-p)] = (0.5)/ [(0.5)*(1-0.5)] = 2

Komponen Pembentuk Sampel

Menurut salah satu buku pintar[2], ada lima faktor yang mempengaruhi besar sampel (n). Ini daftarnya:

  1. Tingkat keyakinan (confidence interval) yang diukur dengan skor z dalam distribusi normal,
  2. Efek rancangan sampel (=deff), dan
  3. Perkiraan awal indikator utama, misalnya, proporsi yang memilih Merah (=p).
  4. Margin kesalahan (margin error, e)
  5. Angka respons (response rate: RR)

Dua faktor yang terakhir dalam daftar di atas  mempengaruhi n secara berbanding terbalik sedangkan yang lainnya berbanding lurus. Faktor yang ke-2 (deff) agak sulit dijelaskan dalam tulisan singkat dan bahkan diakui “sulit diputuskan”[3]:

It is much more difficult to decide what the design effect should be when a cluster sample design is planned and there is no prior knowledge of the effect of clustering on the sampling variance. In this case, a design effect of at least 2 might be used, although the design effect of a highly clustered design may be as high as 6 or 7.1 for a stratified sample design and deff ≥ 1 for a cluster sample design.

Contoh penghitungan

Uraian di atas bagi sebagian mungkin terkesan jelimet walaun sebenarnya tidak, apalagi jika diilustrasikan melalui contoh konkret dan secara bertahap. Berikut disajikan ilustrasi yang dimaksud menggunakan skenario yang dibuat serealistis mungkin.

Diketahui: Total TPS (=N)= 800,000.

Pertanyaan: Berapa jumlah minimal TPS yang diperlukan untuk mengintimasi proporsi yang memilih Merah (=P)?

Diasumsikan: (a) Tingkat keyakinan (confidence interval): 95% atau z=1.96, (b) e= 5%, (c) RR=95%, (d) deff=2, dan (e) p=0.5.

Jawab:

Penetapan sampel awal (=n1):.

n1= [(z*z)*(p*(1-p))]/(e*e)

= [(1.96*1.96)*(0.5*0.5)]/(.05*.05)

= 384.16

Penyesuaian (adjustment) karena relativitas besar sampel terhadap populasi (=n2):

n2 = n1 * [N/ (N+n1)]

= 384.16 * [800,000 / (800,000+384.16)]

= 383.98

Penyesuaian karena pengaruh rancangan sampling (=deff) (=n3):

n3 = deff * n2

= 2*383.98

= 768.32

Penyesuaian arena RR (=n4):

n4 = n3/0.95

= 808.75

Itulah angka akhir, 800 TPS. (Pada tahapan sekarang sudah boleh pembulatan agar kelihatan elok.) Kesimpulannya ini:

Sampel 2,000 TPS sudah lebih dari cukup bahkan berlebihan untuk mewakili 800,000 TPS.

Tapi nanti tunggu dulu. Kesimpulan itu kondisional:

Angka 800 adalah angka minimum untuk satu domain estimasi. Jadi, jika “nian ingsun” hanya untuk estimasi nasional maka kesimpulan di atas berlaku. Tapi jika ingin estimasi provinsi maka kesimpulan tidak berlaku karena kebutuhan sampel menjadi (800*34) atau sekitar 27,000.

Diskusi di atas terakit dengan besar sampel (sample size). Bagaimana dengan alokasi sampel? Ini isu lain yang lebih kompleks tetapi dapat tergambar dalam daftar pertanyaan berikut:

  1. “Apakah alokasi sampel sudah memenuhi prinsip acak?”
  2. “Adakah jenjang dalam pemilihan sampelnya?”: (a) “Ujug-ujug milih TPS?”, atau (b) “Dipilih dulu kab./kota, kecamatan, lalu desa?”, atau (c) “Bagimana?”
  3. “Jika ada jenjang, apakah probabilitas terpilihnya setiap jenjang sudah memperhitungkan weighting?”
  4. “Apakah estimasi akhir mempertimbangkan weighting?”

Pusing toh? Yo wis!

[1] Mengenai simbolisme Merah dan Hijau lihat INI.

[2] Statistics Canada (2010), Survey Methods and Practices

[3] Ibid, halaman 168.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.