About Me

header ads

CARA MENERAPKAN CROSS VALIDATION KFOLD BERBASIS MATLAB


Cross validation adalaha metode statistika yang di gunakan untuk mengevaluasi kinerja model atau algoritma. salah satu metode cross validation adalah KFOLD.

Kfold adalah salah satu metode cross validation yang terpopuler dengan melipat data sebanyak K dan mengulangi experimen sebanyak K juga

Misal kita memiliki data sebanyak 100 data. jika kita menggunakan K=5, Berarti kita akan bagi 100 data menjadi 5 lipatan. isinya masing-masing adalah 20 data. Maka kita perlu menentukan mana yang sebagai training data dan mana yang sebagai test data. Karena perbandingannya 80:20,berarti ada 80 data sebagai training data dan 20 nya adalah sebagai test data. bedasarkan lipatan sebanyak 5,maka berarti bakal ada 4 lipatan x 20 data = 80 training data.. dan sisanya ada 1 partisi test data yang berisi 20 Data. 

KALI INI SAYA AKAN MENCOBA TEST DI MATLAB. 
Ketik kan kode di bawah ini di matlab anda..





berikutnya, akan kita bagi data tersebut menjadi beberapa bagian, dengan metode yang disebut dengan 'Kfold' sehingga sering disebut dengan 'Kfold Cross Validation'. Pembagian yang paling populer adalah membagi data menjadi 10 bagian, dikenal dengan nama 10-fold. Akan tetapi, karena disini datanya hanya 10, maka kita ambil contoh dibagi menjadi tiga bagian saja. 


Indices merupakan jamak dari index, yang dimaksud disini adalah membuat data di langkah pertama menjadi tiga bagian berdasarkan index 1 hingga 3. Secara otomatis, matlab akan mempartisi data seadil mungkin. 

Perhatikan, data yang digunakan dalam indeks adalah data pada kolom ketika yang berisi target beasiswa. Biar lebih enak, data pecah menjadi training dan target, seperti berikut : 


Selanjutnya, akan dilakukan training dan testing dimana satu data berfungsi sebagai penguji dan data lainnya sebagai data training. Karena data terbegi menjadi 3 maka kita lakukan iterasi sebanyak 3 kali :







Kode diatas dimaksudkan untuk melakukan proses training dan testing dengan terlebih dahulu membuat indeks testing dan training. Training dibuat dengan menegasikan test dengan simbol '~'. Sebelum diakhiri end, hasil ditampilkan sebagai hasil perbandingan antara hasil testing dan data training awal, apakah sesuai atau tidak. Hasil yang tidak sesuai dianggap sebagai kesalahan training. 

Namun, dari hasil yang telah diperoleh pada itarasi pertama hingga ketiga, hasil training dan testing menunjukkan hasil yang tepat sama, jadi akurasi sistem diatas sebesar 100 %. Demikian apa yang dapat saya jelaskan untuk teman-teman. Semoga bermanfaat. 



Post a Comment

0 Comments