February 2012
MTWTFSS
«Mar  
 12345
6789101112
13141516171819
20212223242526
272829 

Sistem Klasifikasi dan Prediksi #1:Penyiapan Data

Dalam Klasifikasi dan Prediksi data yang akan digunakan sebelumnya harus disiapkan dengan bebrapa proses. Di dalam Han dan Kamber (2001) terdapat beberapa langkah praproses terhadap data untuk meningkatkan akurasi,efisiensi,dan skalabilitas dari klasifikasi atau prediksi,antara lain:

Pembersihan Data:
Tujuan dari praproses ini adalah untuk menghilangkan atau mengurangi noise (misalnya dengan melakukan proses smoothing) dan perlakukan khusus pada missing data (misalnya menggantinya dengan nilai paling umum muncul untuk data tersebut atau dengan nilai yang paling mungkin muncul secara statistik).


Analisa Relevansi/Pemilihan Ciri:
Sejumlah atribut di dalam data mungkin saja tidak relevan untuk klasifikasi atau prediksi. Atau atribut yang lain mungkin redundant. Praproses ini dilakukan untuk menghilangkan atribut yang redundant atau tidak relevan.

Transformasi Data / Normalisasi Data:
Data dapat digeneralisasi ke konsep yang lebih tinggi. Konsep hirarki dapat digunakan di sini. Beberapa metode yang umum dipakai,yaitu:

Min-Max:Min-Max merupakan metode normalisasi dengan melakukan transformasi linier terhadap data asli. Berikut adalah rumusnya:
pn = 2*(p-minp)/(maxp-minp) –1 (1)
Metode ini akan menormalisasi input dan target sedemikian rupa sehingga hasil normalisasi akan berada pada interval -1 dan 1. Dimana p adalah nilai sebelum transformasi,pn adalah nilai hasil transformasi,minp dan maxp adalah nilai minimum dan maximum dari p.

Unary Encoding
Unary Encoding merupakan metode transformasi data yaitu merepresentasikan data dengan kombinasi angka 1 dan 0 (numeric binary variable). Metode ini digunakan untuk mentransformasi data kategorikal. Sebagai contoh ‘10’ untuk data ‘lulus’ dan ‘01’ untuk data ‘tidak lulus’.

Numerical data dan Categorical Data
Menurut Kantardzic (2003) type data yang umum adalah numerical dan categorical. Nilai numerik termasuk nilai real maupun integer. Nilai numerik memiliki 2 properti yang penting,yaitu relasi urut (2<5 biru="Biru,">Merah). Variabel dengan tipe ini dapat dikonversi menjadi numeric binary variable atau dalam statistik disebut dengan dummy variables. Categorical variable dengan n nilai dapat dikonversi ke dalam n numerical binary variable. Jika terdapat 4 pilihan warna yaitu hitam,biru,hijau dan coklat. Maka 4 warna tersebut dapat dikonversi ke dalam 4 bit numerical binary variable yaitu hitam bernilai 1000,biru bernilai 0100,hijau bernilai 0010,dan coklat bernilai 0001.

References:
Han,J. Kamber,M. 2001.
Data Mining:Concept,Model,Methods,and Algorithm. Wiley-Interscience,New Jersey.
Kantardzic,M. 2003.
Data Mining:Concept and Techniques. Morgan Kaufmann Publisher,San Fransisco.

Inlinks:

Leave a Reply

  

  

  

You can use these HTML tags

<a href=""title=""><abbr title=""><acronym title=""><b><blockquote cite=""><cite><code><del datetime=""><em><i><q cite=""><strike><strong>