Design and implementation of local data mining model for short-term fog prediction at the airport


Abstract.

In this paper we will present data mining methods for short term prediction of fog in local area (international airport in Dubai in our case). We will describe data-preprocessing tasks, modeling using the decision trees, and evaluation of models on testing data. Preliminary results are plausible but still need some improvement.

1. Introduction
Peningkatan kebutuhan akan peringatan sedini mungkin tentang keadaan cuaca dengan tingkat ketepatan yang tinggi, terutama yang berhubungan dengan berbagai wilayah yang berpotensi menimbulkan kejadian yang dapat menimbulkan bahaya dan kerugian yang besar seperti lalu lintas, pertanian, pariwisata dan keamanan umum.

Kabut memiliki dampak signifikan pada aktivitas manusia (mari kita sebut saja untuk kepentingan penerbangan, lalu lintas jalan dan pelayaran) dan pentingnya peningkatan metode prediksi kabut bagi masyarakat  secara keseluruhan. Saat ini digunakan pendekatan prediksi visibilitas-mengurangi kabut dimulai dengan model meteorologi umum 3D yang dieksekusi untuk wilayah terbatas, outputnya dikonversi menggunakan rumus empiris ke visibilitas.

Hasil dari pendekatan ini sendiri tidak dapat mencapai kualitas yang memuaskan dan model meteorologi yang umum seringkali gagal untuk menangani kondisi perubahan cuaca, yang biasanya menghasilkan kabut, oleh karena itu ada beberapa  model eksperiment yang memproses hasil lebih lanjut dari model meteorologi umum.

metode kabut 1D fisik model, statistical post-processing model [2], [3]. Hasilnya kemudian ditafsirkan oleh ahli meteorologi, yang memperhitungkan lebih lanjut faktor lainnya.
terutama/ nya pengalamannya dengan situasi dan kondisi meteorologilokal, citra satelit, data real-time dari stasiun meteorologi yang menunjukkan kabut yang mulai terbentuk, atau kondisi yang akan membentuk untuk terjadinya suatu kabut, kondisi tanah di lokasi target, salju penutup, kejadian kabut terakhir, dan lain-lain
Dalam tulisan ini, saya akan menjelaskan proses data mining untuk prediksi kabut lokal

Kami telah mengimplementasikan pendekatan ini dan mengevaluasinya pada data meteorologi disekitar bandara United Arab Emirates di Dubai

Dalam bab berikutnya, kami akan menjelaskan input data dan pra-pengolahan tugas yang dilakukan untuk mempersiapkan pemodelan.

Bab ketiga menguraikan model prediksi dan bab terakhir memberikan gambaran hasil evaluasi awal.

2.  Data understanding and pre-processing

Data understanding and pre-processing adalah tugas yang paling kompleks dan bagian yang paling memakan waktu untuk proses penemuan informasi atau pengetahuan baru (biasanya memakai 60 – 70 persen dari keseluruhan waktu) untuk aplikasi kami data diproses dengan mengikuti aturan sebagai berikut :

  • Extrasi data dari badan meteorological

Tujuan dari extrasi data adalah menkodekan data yang diterima dari badan meteorologi  yang masih berbentuk METAR format. Format data yang digunakan dipisahkan menjadi data yang menunjukkan nilai dan data yang merupakan pesan dari data tersebut.

hasil dari extrasi ini adalah database relasional dari data yang sudah diekstrasi

  • Ektrasi data  dari  satellite/gambar yang dihasilkan radar

Tujuan dari hal ini adalah melakukan ektrasi data variabel yang akan menjadi indikator, dimana data ini akan menunjukan kabut dan awan tipis yang menyelimuti suatu area.

hasil dari extrasi ini adalah database relasional dari data yang sudah diekstrasi

  • MengIntegrasikan Data

Mengintegrasikan data meteorological dari semua sumber (contoh : data yang sudah di ektrasi dari pesan METAR, pencitraan satelit, stasiun meteorologika dan prediksi model fisik)   yang terintegrasi kedalam satu database relasional. dimana setiap record didalamnya terintegrasi dengan database yang terhubung dari atau ke interval waktu dan koordinat area yang diukur secara 3D (contoh range menggunakan longitude, latitude and altitude).

  • Data interpolation
Karena setiap sumber data memiliki sekitar 34 perbedaan yang dapat mempengaruhi presisi dan / atau granularity, tujuan dari tugas ini adalah mengukur nilai-nilai dengan metode interpolasi dan menghitung data tambahan untuk daerah  dan waktu yang diminta dengan data tertentu.
Pendekatan yang sama digunakan untuk mengantikan nilai-nilai yang hilang.
  • Data reduction

Dari sebuah data set yang besar kita dapat memilih sebuah sample yang reprentatative yang digunakan sebagai pemodelan.  Pengurangan seringkali dibutuhkan karena keterbatasan secara teknis yang ada pada beberapa metode, tetapi ini bisa juga dapat meyederhanakan tugas dengan menghapus attribut dan record yang tidak relevan sehingga dapat meningkatkan kualitas dari hasil yang dibuat.

Hasil dataset saat ini berisi tentang record dengan attribut fisik seperti  temperatur, kelembaban, arah angin, kecepatan angin dan lain-lain yang berguna sebagai attribut indikator sebagai variabel target yaitu terjadinya kabut dilokasi yang spesifik (international airport di Dubai untuk kasus ini ).

Selain itu, data yang kami tingkatkan dengan beberapa atribut yang diturunkan dihitung sebagai rasio dari atribut fisik atau tren (yaitu kenaikan / penurunan suhu dll). Secara geografis data ini mencakup wilayah 10 bandara di United Arab Emirat terutama berlokasi di sekitar Dubai dan pantai utara dengan bentang waktu dan granularity dari 10 tahun terakhir yang diukur setiap satu jam.

3. Modeling

Inti dari pemodelan pada proses data mining adalah ketika memilih metode data mining yang akan diaplikasikan pada pre-processed data. Model kami secara sederhana akan memprediksikan secara time-series, dimana keluaran prediksi untuk waktu adalah t+1,…,t+K yang berdasarkan pada historical data  (contoh : waktu) dari waktu …,t-2,t-1,t. prediksi keluaran terbatas pada tiga jam kedepan (K=3).

Kami  melakukan classification secara spesifik contoh Memprediksi nilai dari sebuah nilai yang terbatas (contoh sederhana adalah classification binary dimana 1 berarti akan terjadi kabut dan 0 tidak akan terjadi kabut),

Nilai prediksi disebut memiliki nilai kepercayaan  contoh estimasi kemungkinan terjadinya kabut  dalam dua jam kedepan adalah 0,8.

Keinginan untuk mendapatkan hasil prediksi dengan kualitas terbaik membuat berbagai aturan yang diterapkan terhadap data untuk diprediksi bisa menjadi cukup menarik (kemampuan untuk menggambarkan proses terjadinya kabut dengan menggunakan data mining )

Sebagai tambahan kami melakukan penyusunan dengan melakukan prediksi terjadinya kabut pada airport di dubai dengan dua sub-model, yang pertama mendeteksi penyebaran kabut diarea sekitar airport dan satu model mendeteksi pembentukan kabut baru langsung di target area. Disana ada bebrbagai macam metode prediksi dari metode statistik sampai metode kecerdasan buatan seperti linear atau logistical regression models, Support Vector Machine,  neural nets,  probabilistic models (misal Bayesian networks), decision/regression trees and lists,  dll.

Kami telah menguji berbagai metode yang tersedia diprogram SPSS Clementine dan akhirnya kami memilih menggunakan metode decision tree yang mampu memberikan kompromi yang baik antara ketepatan prediksi dan  komprehensi model. Untuk mendapatkan hasil yang optimal, semua parameter dari algoritma tersebut disetel dengan pengujian menggunakan metode cross-validasi.

4 .Evaluation

Semua model kami evaluasi dengan menguki data dengan mengikuti pengukuran seperti dibawah ini :

Recall = TP / (TP + FN)

False alarm = FP / (TP + FP)

True skill score = recall – false alarm

dimana TP (FP) adalah angka dari true (false) positive dan TN (FN) adalah angka true (false) negative dari masing-masing contoh. kami mendapati angka  recall 94% dari  11%   false alarm untuk  spreading model (misal: true skill score berkisar 83%) dan 76% recall dengan 33%  false alarm error untuk fog forming model (true skill score 43%). Hasilnya masuk akal dan dapat dibandingkan dengan metode yang ada, namun masih perlu perbaikan.

Dengan catatan bahwa kualitas data yang diuji cukup rendah dengan banyaknya data yang hilang pada data METAR records (rata-rata 30% dari record per airport, untuk beberapa airport bahkan sampai 90%). Kami coba untuk mengintegrasikan dengan data tambahan dari Climatological Database System (CLDB [5]) tetapi tetap saja kualitas data tersebut masih harus ditingkatkan.

Tantangan lainnya dari fenomena kabut adalah tidak balancenya angka positif dan negatif dari record. Dalam dataset yang diuji hanya 0.2% yang postif menyebabkan kabut.

 

5. Kesimpulan

Dalam makalah ini kami telah menggambarkan proses data mining untuk memprediksi kabut. Menurut hasil awal, Model kami  telah dibandingkan dengan model yang sudah ada yaitu metode yang berbasis pada model physical       global dan aturan-aturan empiris.

Kami telah menerapkan seluruh rantai data pra-pengolahan  yang mengekstrak dan mengintegrasikan data dari  berbagai sumber meteorologi. Untuk penelitian selanjutnya kami ingin mengintegrasikan lebih banyak data dan menyeimbangkan datanya agar dapat menghasilkan prediksi yang  positif dalam rangka meningkatkan kualitas data yang diuji. Juga kami ingin menguji metode klasifikasi dengan berbagai macam data berdasarkan dekomposisi masalah yang berbeda-beda.

References

1. Gultepe, I., Müller, M. D., Boybeyi, Z.. A new visibility parameterization for warm fog applications in numerical weather prediction models. In J. Appl. Meteor. 45, 2006, p.1469-1480.
2. Bott, A., and Trautmann, T.: PAFOG – a new efficient forecast model of radiation fog and low-level stratiform clouds. Atmos. Research, 64, 191-203, 2002.
3. COST 722 – Short range forecasting methods of fog, visibility and low clouds. Final Report, COST Office, Brussels, Belgium, 2007.
4. SPSS Clementine, http://www.spss.com/software/modeling/modeler-pro/
5. Climatological Database System, http://www.microstep-mis.com/index.php?lang=en&site=src/products/meteorology/cldb

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s