Data Mining and Artificial Neural Networks for Short-range Wind Speed Forecasts

Petrina Papazek,Irene Schicker,Alexander Kann,Yong Wang
2019-01-01
Abstract:Aufgrund Osterreichs topographischer Lage im Alpenraum ist es noch immer schwierig, verlassliche Windvorhersagen zu berechnen. Sie werden jedoch fur viele Anwendungen benotigt. Derzeitige Ansatze verwenden klassische statistische Methoden (z.B. auf Basis von Regression) und numerische Vorhersagemodelle (numerical weather prediction models, NWPs), die jedoch eine lange Rechenzeiten auf Hochleistungs-rechnern benotigen. Fur einige Anwendungen sind effiziente und zugleich genaue Vorhersagen im Nowcasting (fur 1 bis 6 Vorhersagestunden) und Kurzfristvorhersagen (bis zwei Tage Vorhersagezeitraum) notig. Diese Masterarbeit untersucht Methoden zur Vorhersage der Windgeschwindigkeit in 10 Meter Hohe (10 Meter Wind). Dazu wird ein neuartiges Machine Learning und Data Mining Framework ent-wickelt. Die Vorhersagen konnen mithilfe der Beobachtungsdaten des osterreichischen meteorologischen Beobachtungsnetzes auf einfache Art und Weise validiert werden. Einige verwandte Ansatze aus der Literatur basieren auf kunstliche neuronale Netzwerke (artificial neural networks, ANN) kombiniert mit metaheuristischen Techniken. Jedoch arbeiten die meisten davon entweder mit Daten aus numerischen Vorhersagemodellen oder Beobachtungen oder verwenden rechenintensive Machine Learning Ansatze. Einige generieren auch einen mittleren Windvorhersagewert fur den gesamten Tag ohne die mogliche Veranderung der Windgeschwindigkeit im Verlauf des Tages zu be-trachten -- dies ist nicht fur die Anwendung im Nowcasting geeignet. Im Gegensatz dazu entwickeln wir im Rahmen dieser Arbeit ein Data Mining Framework, das unterschiedliche einfache Machine Learning Modelle (ANNs, random forests, support vector machines) und Ensemble Learning einsetzt und mithilfe von Data Mining Methoden die verfugbaren Daten auswahlt bzw. fur die Vorhersagen praprozessiert. Fur eine Basisversion definieren wir ein stationsbasiertes Modell und verwenden Trainingsdaten aus derselben Jahreszeit. Wir kombinieren verschiedene Datenquellen um neues Wissen abzuleiten. Im Speziellen untersuchen wir, wie wir die Daten der meteorologischen Beobachtungen mit den Vorhersagen der numerischen Modelle sinnvoll fur unsere Vorhersagen, vor allem auch im Nowcasting, einsetzen konnen. Das Ziel ist es, die Vorhersagen des aktuell operational eingesetzten Modells, INCA, zu verbessern. Wir konnen zeigen, dass die Daten dazu nach der Vorhersagestunde vor-klassifiziert werden mussen. Wir bezeichnen unseren Ansatz als die iANNe Methode (i steht fur die Bildung von Intervallen der Vorhersagestunde, ANN beschreibt das vorwiegend verwendete Machine Learning Modell und e steht fur den Einsatz von Ensembles). In einer komplexeren Variante des Modells erweitern wir den Trainingszeitraum auf mehrere Saisonen und setzen verschiedene raumliche Versionen (mithilfe von Stationsgruppen) ein, um die Ergebnisse im komplexen Gelande zu verbessern. Die Kombination dieser Methoden (iANNe, {Stationsgruppen und die Erweiterung des Trainingszeitraums) liefert gute Ergebnisse in den Experimenten der Windgeschwindigkeitsvorhersage fur einige Stationen. Um die entwickelte Methodik experimentell zu testen, entwickeln wir den Python basierten Prototyp pywiNNd in einer Linuxumgebung. Die Analyse der Experimente zeigt uns wie wir die Auswahl der Daten und das Design der eingesetzten Machine Learning Modelle (z.B.: ANN-Netzarchitektur) fur den Einsatz in Kurzfristprognosen optimierten konnen. Dabei untersuchen wir vor allem performante Methoden zur Verbesserung der Windgeschwindigkeitsvorhersagen im Nowcasting. Die Vorhersage muss fur diese Anwendung im Minutenbereich verfugbar sein. Wir benutzen ein Testszenario mit 24 {Beobachtungsstandorten. Wir berechnen stundliche Vorhersagen fur 31 Tage und einen {Zeithorizont von 40 {Stunden in die Zukunft. Ein weiteres Testszenario dient zur Evaluierung der spatialen, temporalen sowie spatio-temporalen Methoden mit verschiedenen Stationsgruppen fur die Station Wien Hohe Warte in Wien. Dazu arbeiten wir mit Daten der osterreichischen Vorhersagemodelle ALARO, AROME, dem europaischen ECMWF-Modell und Beobachtungsdaten von den teilautomatischen {Wetterstationen (TAWES). Diese Testszenarien werden zur Validierung der Performanz und Vorhersagequalitat verschiedener Ansatze genutzt und ermoglicht uns sinnvolle Einstellungen der Architektur und Eingabedaten zu finden. Verschiedene statistische Metriken dienen zur Validierung und zeigen, dass fur den Grosteil der Beobachtungsstationen eine Verbesserung der Vorhersagen der NWP-Modelle, INCA (ein statistisch-physikalisches Nowcasting-System) und META (eine model output Statistik) fur den gesamten Vorhersagezeitraum (das heist fur 0 bis 40 Vorhersagestunden) erzielt werden kann. Im Allgemeinen konnte auch beobachtet werden, dass ein zeitliches Verlangern der Trainingsdaten durch mehrere gleiche Jahreszeiten forderlich ist. Bei den raumlichen Methoden mithilfe von Stationsgruppen, die die Wetterlage, raumliche Lage und Topographie berucksichtigen, konnen fur einige Testszenarien Verbesserungen im komplexen Gelande beobachtet werden. Die iANNe Methode und ihre raumlichen und zeitlichen Erweiterungen liefern bessere Ergebnisse als die derzeit verwendete Methode, indem lange Trainingszeitraume genutzt werden und somit Information der Vergangenheit, die aktuelle Beobachtung bzw. Wettersituation sowie die aktuellste verfugbare Modellrechnung eines numerischen Modells genutzt wird.
What problem does this paper attempt to address?