Research Article
A Comparative Assessment on Air Pollution Estimation by Machine Learning Algorithms

Year 2019, Issue: 16, 8 - 15, 31.08.2019


Air pollution is one of the biggest problems of today. Air pollution, population growth, urban development and growth are increasingly important with the development of industry. Generally, the harmful effects of air pollutants on humans, animals and the environment show complex distribution patterns depending on time, space, duration of action, concentration and other characteristics. This complexity means that modeling and measurement of pollutant samples and trends is also difficult to predict the levels of pollution to which people are exposed. One of the most important steps in prevention of air pollution is the evaluation of contamination in a model. In this study, it is aimed to model air pollution by using some meteorological parameters in the estimation of air pollution by various machine learning algorithms which give new and successful results in meteorology and environment applications. Minimum-Max (Min-Max) normalization technique was used with learning methods. The performance values obtained in the study are compared with the similar studies in the literature and the most appropriate classification algorithm for the solution of the problem has been determined. Separate models were designed and analyzed by using methods such as Artificial Neural Networks (ANN), Random Forest, K-Nearest Neighborhood (K-NN), Logistic Regression, Decision Tree, Linear Regression and Naive Bayes. The performance values obtained in the study were compared with similar studies in the literature and the most appropriate estimation algorithm for the solution of the problem was determined. In this case, 70% of the data set is used for training and 30% for testing. As a result of the study, it was seen that the correct estimation rate for the ANN model was 87% and the other machine learning models gave the best results in the estimation with 99% of the Random Forest accuracy rate and 99% of the Decision Tree accuracy rate. The Linear Regression method performs poorly with a 30% accuracy rate. Performance evaluation of methods used on KastamonuDataSet in terms of the Explanatory Coefficient (R2), Mean Squared Error (MSE), Root Mean Square Error (RMSE) and Mean Absolute Error (MAE) metrics. 


Makine Öğrenmesi Algoritmaları ile Hava Kirliliği Tahmini Üzerine Karşılaştırmalı Bir Değerlendirme

Year 2019, Issue: 16, 8 - 15, 31.08.2019


Hava kirliliği, günümüzün en büyük sorunlarından birini teşkil etmektedir. Hava kirliliği, nüfusun artması, kentsel gelişme ve büyüme, endüstrinin gelişmesiyle giderek artan bir önem arz etmektedir. Genellikle hava kirleticilerinin insanlara, canlılara ve çevreye zararlı etkileri zaman, mekan, etki süresi, konsantrasyon ve diğer karakteristiklerine bağlı olarak karmaşık dağılım şekilleri göstermektedir. Bu karmaşıklık, kirletici örnekleri ve eğilimleri modelleme veya ölçmede, ayrıca insanların maruz kaldığı seviyeleri tahmin etmenin zor olduğu anlamına gelmektedir. Hava kirliliğinin önlenmesi konusunda yapılacak çalışmalar içerisinde en önemli adımlardan biri kirlenme olayının bir model içerisinde değerlendirilmesidir. Bu çalışmada Kastamonu ili ele alınarak, meteoroloji ve çevre uygulamalarında oldukça yeni ve başarılı sonuçlar veren çeşitli makine öğrenmesi algoritmaları ile hava kirliliğinin tahmininde, bazı meteorolojik parametreler kullanılarak hava kirliliği modellenmesi amaçlanmıştır. Normalizasyon tekniklerinin sistem performansına etkisini gözlemleyebilmek için veri setindeki değerler Minimum-Maksimum (Min-Max) normalizasyon teknikleri ile normalize edilmiştir. Çalışmada elde edilen performans değerleri, literatürdeki benzer çalışmalarla kıyaslanarak problemin çözümüne ilişkin en uygun sınıflandırma algoritması tespit edilmiştir. Yapay Sinir Ağları (YSA), Rastgele Orman (Random Forest), K-En Yakın Komşu (K-Nearest Neighborhood), Lojistik Regresyon (Logistic Regression), Karar Ağacı (Decision Tree), Lineer Regresyon (Linear Regression) ve Basit Bayes (Naive Bayes) gibi yöntemler kullanılarak ayrı ayrı modeller tasarlanmış ve sonuçlar analiz edilmiştir. Veri setinin %70’i eğitim ve %30’si test verisi olarak ayrılmıştır. Çalışma sonucunda, yapay sinir ağları beklendiği gibi %91 oranında başarı göstererek en doğru tahmini yapan yöntem olarak belirlenirken, sınıflandırmalardan en başarısız sonuç Lineer Regresyon ile %30 elde edilirken, en başarılı sonuçlar Rastgele Orman ve Karar Ağacı ile %99 elde edilmiştir. KastamonuDataSet üzerinde kullanılan yöntemlerin performans değerlendirmelerinde kullanılan temel performans göstergeleri olarak Açıklayıcılık Katsayısı (R2), Ortalama Karesel Hata (Mean Squared Error-MSE), Ortalama Hata Kare Kökü (Root Mean Square Error-RMSE) ve Ortalama Mutlak Hata (Mean Absolute Error-MAE) metrikleri bakımından istatistiksel önemli farklılıkların bulunduğu tespit edilmiştir. 


Yasemin Gültepe

Publication Date August 31, 2019
