Design and implementation of local data mining model for short-term fog prediction at the airport


Abstract.

In this paper we will present data mining methods for short term prediction of fog in local area (international airport in Dubai in our case). We will describe data-preprocessing tasks, modeling using the decision trees, and evaluation of models on testing data. Preliminary results are plausible but still need some improvement.

1. Introduction
Peningkatan kebutuhan akan peringatan sedini mungkin tentang keadaan cuaca dengan tingkat ketepatan yang tinggi, terutama yang berhubungan dengan berbagai wilayah yang berpotensi menimbulkan kejadian yang dapat menimbulkan bahaya dan kerugian yang besar seperti lalu lintas, pertanian, pariwisata dan keamanan umum.

Kabut memiliki dampak signifikan pada aktivitas manusia (mari kita sebut saja untuk kepentingan penerbangan, lalu lintas jalan dan pelayaran) dan pentingnya peningkatan metode prediksi kabut bagi masyarakat  secara keseluruhan. Saat ini digunakan pendekatan prediksi visibilitas-mengurangi kabut dimulai dengan model meteorologi umum 3D yang dieksekusi untuk wilayah terbatas, outputnya dikonversi menggunakan rumus empiris ke visibilitas.

Hasil dari pendekatan ini sendiri tidak dapat mencapai kualitas yang memuaskan dan model meteorologi yang umum seringkali gagal untuk menangani kondisi perubahan cuaca, yang biasanya menghasilkan kabut, oleh karena itu ada beberapa  model eksperiment yang memproses hasil lebih lanjut dari model meteorologi umum.

metode kabut 1D fisik model, statistical post-processing model [2], [3]. Hasilnya kemudian ditafsirkan oleh ahli meteorologi, yang memperhitungkan lebih lanjut faktor lainnya.
terutama/ nya pengalamannya dengan situasi dan kondisi meteorologilokal, citra satelit, data real-time dari stasiun meteorologi yang menunjukkan kabut yang mulai terbentuk, atau kondisi yang akan membentuk untuk terjadinya suatu kabut, kondisi tanah di lokasi target, salju penutup, kejadian kabut terakhir, dan lain-lain
Dalam tulisan ini, saya akan menjelaskan proses data mining untuk prediksi kabut lokal

Kami telah mengimplementasikan pendekatan ini dan mengevaluasinya pada data meteorologi disekitar bandara United Arab Emirates di Dubai

Dalam bab berikutnya, kami akan menjelaskan input data dan pra-pengolahan tugas yang dilakukan untuk mempersiapkan pemodelan.

Bab ketiga menguraikan model prediksi dan bab terakhir memberikan gambaran hasil evaluasi awal.

Continue reading

Advertisements

Apriori Algorithm


  1. Apriori Algorithm
Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola frekuensi tinggi.  Pola frekuensi tinggi adalah pola-pola item di dalam suatu database yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan istilah minimum support.
Pola frekuensi tinggi ini digunakan untuk menyusun aturan assosiatif dan juga beberapa teknik data mining lainnya.
Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi atau pass. Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Di iterasi pertama ini, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support diatas minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item.
Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2.
Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :

  1. Pembentukan kandidat itemset, Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma Apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam pola frekuensi tinggi dengan panjang k-1.
  2. Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak k-itemset terpanjang.
  3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari minimum support.
  4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan. Bila tidak, maka k ditambah satu dan kembali ke bagian 1.
  • Dikembangkan oleh Agrawal dan Srikant pada tahun 1994 yang merupakan cara inovatif untuk digunakan pada metode asosiasi pada data dengan skala yang besar dengan memberikan keluaran yang berisi lebih dari 1 item
  • Berbasiskan pada frekuensi atau support di atas ambang batas tertentu atau diistilahkan dengan  minimum support threshold  (siap digunakan untuk algoritma AIS)
Apriori memiliki tiga versi : Continue reading