Data dan Karakteristik Metode Data MIning
Data Dan Karakteristik Metode Data Mining
Data
Data merupakan kumpulan fakta yang direpresentasikan ke dalam bentuk karakter baik huruf, angka dan lainnya yang dapat diproses menjadi sebuah informasi.Sesuai dengan kaidah penelitian untuk Data Collecting (pengumpulan data) bisa melalui observasi, angket, wawancara dengan stakeholder dan lain-lain.
Secara definitif kita mengetahui bahwa Data adalah kumpulan Fakta yang terekam dan tidak memiliki arti.Selain itu data dapat diartikan sebagai kumpulan fakta-fakta yang direpresentasikan kedalam beberapa bentuk baik karakter : Angka, huruf maupun simbol yang diproses sehingga menghasilkan sebuah informasi. Atau data dapat dinterpretasikan sebagai Entitas yang tidak memiliki arti yang selamai ini terabaikan.
Data juga dapat di analogi pada dunia pabrikasi yaitu sebagai “Bahan Mentah” sedang hasil pengolahan Produksinya yang disebut “Bahan Jadi” yaitu berupa Informasi. Untuk lebih jelasnya dapat dilihat pada gambar di bawah ini:
Data -> Proses -> Informasi
Data data mining tentulah kita semua mengetahui bahwa yang akan ditambang atau digali dalam tanda kutip adalah Himpunan Data / Basis Data (database) ,yang kemudian akan diekstraksi menjadi sebuah pengetahuan baik Pola, Klaster, Decision Tree dan lain-lain.Sebelum kita melakukan proses data mining tentunya kita terlebih dahulu mengetahui beberapa elemen dalam sebuah himpunan data seperti pada gambar di bawah ini:
Attribut adalah deskripsi data yang bisa mengidentifikasikan entitas Field adalah lokasi penyimpanan Record adalah kumpulan dari berbagai field yang saling berhubungan.
- Class / Label / Target bisa disebut sebagai atribut keputusan.
Pada Data Mining secara garis besar terdapat 2(dua) tipe data yang harus dipahami yaitu:
1. Numeric merupakan tipe data yang bisa di kalkulasi 2. Nominal merupakan tipe data yang tidak bisa di kalkulasi baik tambah, kurang, kali maupun bagi.
Untuk contoh pemanfaatan tipe data dapat terlihat pada tabel di bawah ini:
Jenis Algoritma dan Metode Data Mining
Pada proses pemecahan masalah dan pencarian pengetahuan baru terdapat beberapa klasifikasi secara umum yaitu:
1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki keputusan berdasarkan histori data yang telah ada. Contohnya ketika melakukan Estimasi Pembiayaan pada saat pembangunan sebuah Hotel baru pada Kota yang berbeda.
2. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana hubungan asosiasi muncul pada setiap kejadian. Adapun metode pemecahan masalah yang sering digunakan seperti Algoritma Apriori. Contoh pemanfaatan Algoritma Asosiasi yaitu pada Bidang Marketing ketika sebuah Minimarket melakukan Tata letak produk yang dijual berdasarkan Produkproduk mana yang paling sering dibeli konsumen, selain itu seperti tata letak buku yang dilakukan pustakawan di perpustakaan
3. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Salah satu contoh yang mudah dan popular adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk interpretasi seperti Algoritma C4.5, ID3 dan lain-lain. Contoh pemanfaatannya adalah pada bidang Akademik yaitu Klasifikasi siswa yang layak masuk kedalam kelas unggulan atau akselerasi di sekolah tertentu.
4. Klastering
Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining. Biasanya menggunkan metode neural network atau statistik, analitikal hierarki cluster.Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.
5. Prediksi
Algoritma prediksi biasanya digunakan untuk memperkirakan atau forecasting suatu kejadian sebelum kejadian atau peristiwa tertentu terjadi. Contohnya pada bidang Klimatologi dan Geofisika, yaitu bagaimana Badan Meterologi Dan Geofisika (BMKG) memperkirakan tanggal tertentu bagaimana Cuacanya, apakah Hujan, Panas dan lain sebagainya. Ada beberapa metode yang sering igunakan salah satunya adalah Metode Rough Set. Di dalam data mining juga sama halnya dengan konsep Neural Network mengandung 2(dua) pengelompokkan yaitu:
Supervised Learning yaitu pembelajaran menggunakan guru dan biasanya ditandai dengan adanya Class/Label/Target pada himpunan data. Adapun metode-metode yang digunakan yang bersifat supervised learning seperti Metode Prediksi dan Klasifikasi seperti Algoritma C4.5, Metode Rough Set dan Lain-lain.
Unsupervised Learning yaitu pembelajaran tanpa menggunakan guru dan biasanya ditandai pada himpunan datanya tidak memiliki attribut keputusan atau Class/Label/Target. Adapun metode-metode yang bersifat Unsupervised Learning yaitu Metode Estimasi, Clustering, Dan Asosiasi seperti Regresi Linier, Analytical Hierarchy Clustering dan lain-lain.