Dalam Klasifikasi dan Prediksi data yang akan digunakan sebelumnya harus disiapkan dengan bebrapa proses. Di dalam Han dan Kamber (2001) terdapat beberapa langkah praproses terhadap data untuk meningkatkan akurasi,efisiensi,dan skalabilitas dari klasifikasi atau prediksi,antara lain:
Pembersihan Data:
Tujuan dari praproses ini adalah untuk menghilangkan atau mengurangi noise (misalnya dengan melakukan proses smoothing) dan perlakukan khusus pada missing data (misalnya menggantinya dengan nilai paling umum muncul untuk data tersebut atau dengan nilai yang paling mungkin muncul secara statistik).
Analisa Relevansi/Pemilihan Ciri:
Sejumlah atribut di dalam data mungkin saja tidak relevan untuk klasifikasi atau prediksi. Atau atribut yang lain mungkin redundant. Praproses ini dilakukan untuk menghilangkan atribut yang redundant atau tidak relevan.
Transformasi Data / Normalisasi Data:
Data dapat digeneralisasi ke konsep yang lebih tinggi. Konsep hirarki dapat digunakan di sini. Beberapa metode yang umum dipakai,yaitu:
Min-Max:Min-Max merupakan metode normalisasi dengan melakukan transformasi linier terhadap data asli. Berikut adalah rumusnya:
pn = 2*(p-minp)/(maxp-minp) –1 (1)
Metode ini akan menormalisasi input dan target sedemikian rupa sehingga hasil normalisasi akan berada pada interval -1 dan 1. Dimana p adalah nilai sebelum transformasi,pn adalah nilai hasil transformasi,minp dan maxp adalah nilai minimum dan maximum dari p.
Unary Encoding
Unary Encoding merupakan metode transformasi data yaitu merepresentasikan data dengan kombinasi angka 1 dan 0 (numeric binary variable). Metode ini digunakan untuk mentransformasi data kategorikal. Sebagai contoh ‘10’ untuk data ‘lulus’ dan ‘01’ untuk data ‘tidak lulus’.
Numerical data dan Categorical Data
Menurut Kantardzic (2003) type data yang umum adalah numerical dan categorical. Nilai numerik termasuk nilai real maupun integer. Nilai numerik memiliki 2 properti yang penting,yaitu relasi urut (2<5 biru="Biru,">Merah). Variabel dengan tipe ini dapat dikonversi menjadi numeric binary variable atau dalam statistik disebut dengan dummy variables. Categorical variable dengan n nilai dapat dikonversi ke dalam n numerical binary variable. Jika terdapat 4 pilihan warna yaitu hitam,biru,hijau dan coklat. Maka 4 warna tersebut dapat dikonversi ke dalam 4 bit numerical binary variable yaitu hitam bernilai 1000,biru bernilai 0100,hijau bernilai 0010,dan coklat bernilai 0001.
References:
Han,J. Kamber,M. 2001.
Data Mining:Concept,Model,Methods,and Algorithm. Wiley-Interscience,New Jersey.
Kantardzic,M. 2003.
Data Mining:Concept and Techniques. Morgan Kaufmann Publisher,San Fransisco.
Inlinks:
- Listrik Tanpa Kabel - Goodbye Wires
- Neural Network #1
- Sistem Klasifikasi dan Prediksi #1:Penyiapan Data
- Analisis PIECES
- Early Warning System - Tsunami
- Analisa Dan Disain Sistem
- Apa itu Multimedia ?
- Tip And Trik Macromedia Flash 8.0
- Data Base #1
- SQL Dengan MICROSOFT 2000 SERVER
- Apa itu Computer Science ?
- Apa itu Methodologies ?
- Apa itu Database ?
- Apa itu Artificial Intelligence ?
- Introducing Snap Shots from Snap.com
- Kuliah Versus Kerja
- ASUS Eee PC
- Sharing Dengan Google Docs
- Kesalahan Dalam Ber-Email
- How to organize your e-mail
- Windows - Mematikan Startup
- Email Tips:Keamanan #1
- Email Tips:Chain Email:Keamanan #2
- Analisa Disain Web
- Tips:Komputer Aman Dari Virus
- Tips:USB Drive Menjadi Autorun
- Tips:Membuat Jaringan Wi-Fi
- PERCEPTRON
- Kualitas Perangkat Lunak
- Freeware Anti Virus
- Jenis License/Lisensi Software
- Tahapan Pengembangan Multimedia
- Database #2
- Web FIK UI Error Direcovery Dengan Cepat
- Surat Terbuka:Ajakan Dialog Terbuka Dengan Sdr. Roy Suryo
- Undangan Dialog Terbuka RiyoGarta Versus RoySuryo
- HP 2133 Mini-Note Seharga $500
- Berapa Harga Website Anda
- Perbandingan Asus EeePC,Everex Cloudbook dan HP 2133
- Tips:Rotasi Desktop Screen
- WordPress:Apa itu Blog? WordPress 1?
- Translator/Penerjemah Bahasa
- Tips:Sharing User ID
- Tips:Mengatasi Komputer Bermasalah
- WordPress:Apa itu Blog?
