Kamis, 22 Desember 2016

KLASIFIKASI DATASET "BLOGGER"

Disusun Oleh:
  1. 1403015032 - Fachriyana Putra
  2. 1403015114 - Yogi Fachriyatul Utama

Deskripsi Permasalahan
  • Latar Belakang
         Pada umumnya manusia mampu memprediksi atau memperkirakan suatu kejadian yang belum terjadi hanya dengan seringnya melihat pola dari suatu kejadian secara berulang, contohnya adalah prediksi terhadap pertandingan sepak bola antara tim A melawan tim B, dilihat dari sejarah pertandingan dari kedua tim tersebut dari 2 tahun terakhir, tim A lebih sering menang terhadap tim B. Dengan kenyataan tersebut maka kita bisa memprediksi petandingan berikutnya akan dimenangkan oleh tim A. Kemampuan ini jika diterapkan kedalam suatu sistem yang berupa perangkat lunak maupun perangkat keras, akan sangat berguna dalam banyak hal. Contoh aplikasinya adalah automatisasi dalam mengklasifikasikan objek atau barang dalam proses industri, analisis citra satelit, pencarian data citra di dalam halaman web atau basis data, peninjauan kualitas barang, dan lain-lain.
       Dalam percobaan ini akan dicari hasil dari dataset sebuah blogger yang memuat penggunanya menulis berbagai topik dengan mempelajari isi dari data tersebut. Pengujian ini dilaksanakan dengan menggunakan 6 metode klasifikasi, yaitu BayesNet, SimpleLogistic, IBk, Bagging, JRip, J48. Pengujian tersebut juga dilakukan dengan menggunakan bantuan tools mesin pembelajaran yang disebut “WEKA (Wakaito Environment for Knowledge Analysis)”.
  • Tujuan
      Tujuan utama penelitian ini adalah untuk memahami, menganalisa dan menerangkan secara ilmiah hasil dari pengujian yang dilakukan serta mengetahui tingkat akurasi dari teknikteknik penambangan data yang digunakan dalam percobaan.


Deskripsi Atribut
  1. Degree_high, medium, low. nominal. untuk mencari nilai yang tertinggi, terendah atau sedang
  2. Caprice_left, middle, right. nominal. untuk mencari nilai yang berada di kiri, kanan atau tengah
  3. Topic_impression, political, news, tourism, scientific. nominal. mengklasifikasikan jenis tema tulisan
  4. Lmt_yes, no. nominal. 
  5. Lpss_yes, no. nominal.
  6. Pb_yes, no. nominal

Hasil Eksperimen

No. Eksperimen Metode Classifier Metode Evaluasi F-Measure rata-rata
1 BayesNet Use training set 0.695
2 SimpleLogistic Use training set 0.585
3 Ibk Cross-validation 0.685
4 Bagging Percentage split 0.785
5 JRip Cross-validation 0.785
6 J48 Percentage split 0.716


Kesimpulan
  1. Akurasi dan performansi dari mesin pembelajaran sangat tergantung dari data yang ada serta pemahaman akan metode yang diterapkan, dalam penelitian ini diperoleh akurasi prediksi dengan angka tertinggi yang diraih oleh Bagging dan JRip.
  2. Pembelajaran mesin untuk memprediksi suatu pola, akan lebih baik performansinya jika data yang dianalisis atau diolah sangat banyak.

Referensi
  • https://codemath.wordpress.com/category/data-mining/
  • http://semangatkecil.blogspot.co.id/2015/03/membuat-file-arff-untuk-data-weka-data.html
  • http://www.dataminingreporting.com/blog/knime-and-big-data 
  • Jurnal "PREDIKSI KEPUTUSAN MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES, ONE-R, DAN DECISION TREE", Bahrawi As’ad

Tidak ada komentar:

Posting Komentar