Added more Erkenntnisse

fhac-ewi · Aug 15, 2021 · 2bae577 · 2bae577
1 parent 3a5d058
commit 2bae577
Show file tree

Hide file tree

Showing 2 changed files with 9 additions and 3 deletions.
diff --git a/03_Datenanalyse.tex b/03_Datenanalyse.tex
@@ -1 +1,3 @@
-\section{Deskriptive Datenanalyse}
+\section{Deskriptive Datenanalyse}
+
+\subsection{Trend im Großhandelspreis}
diff --git a/04_Datenauswahl.tex b/04_Datenauswahl.tex
@@ -24,8 +24,12 @@ \subsection{Unterteilung der Datensätze}
 
 Die \textbf{Testdaten} dienen abschließend zur Bestimmung des erwarteten Fehlers, den das finale Modell, welches zuvor mit den Validierungsdaten ausgewählt wurde, beim späteren Einsatz machen wird. Dieser erwartete Fehler wird als Grundlage für den Vergleich des Benchmarkmodells und der Deep Learning Modelle verwendet.
 
-In unserem Anwendungsfall ist es wichtig, dass der Datensatz \textbf{nicht} sequentiell in Trainings-, Validierungs- und Testdaten unterteilt wird. Da die für den Datensatz verwendeten Daten einen Trend und/oder Saisonalität aufweisen, würde der Datensatz durch eine sequentielle Aufteilung in drei nicht zwangsläufig repräsentative Bereiche aufgeteilt werden. Beispielsweise könnte die Aufteilung eines zweijährigen Zeitraums bedeuten, dass als Trainingsdaten das erste Jahr verwendet wird und Validierungsdaten die erste Hälfte des zweiten Jahres. Die Validierungsdaten hätten deshalb keine Aussagekraft über die zweite Jahreshälfte.
+In unserem Anwendungsfall ist es wichtig, dass der Datensatz \textbf{nicht} sequentiell in Trainings-, Validierungs- und Testdaten unterteilt wird. Da die für den Datensatz verwendeten Daten einen Trend und/oder Saisonalität aufweisen, würde der Datensatz durch eine sequentielle Aufteilung in drei nicht zwangsläufig repräsentative Bereiche aufgeteilt werden. Beispielsweise könnte die Aufteilung eines zweijährigen Zeitraums bedeuten, dass als Trainingsdaten das erste Jahr verwendet wird und Validierungsdaten die erste Hälfte des zweiten Jahres. Die Validierungsdaten hätten deshalb keine Aussagekraft über die zweite Jahreshälfte. Wären beispielsweise in diesem Bereich weitere Erkenntnisse enthalten, so würden diese bei einer sequentiellen Aufteilung nicht in Bestimmung des Modells einfließen. 
 
-Durch eine zufällige Aufteilung des Datensatzes wird diesem Problem entgegen gewirkt. Die Aussagekraft der Validierungsdaten und Testdaten ist höher und die Gefahr von Overfitting wird minimiert. Zudem wird durch die größere Vielfalt der Trainingsdaten ein allgemeingültigeres Modell erstellt.
+Durch eine zufällige Aufteilung des Datensatzes wird diesem Problem entgegen gewirkt. Die Aussagekraft der Validierungsdaten und Testdaten ist höher und die Gefahr von Overfitting wird minimiert. Zudem wird durch die größere Vielfalt der Trainingsdaten ein allgemeingültigeres Modell erstellt, welches bessere Ergebnise in der Praxis liefern wird.
+
+Durch die zufällige Aufteilung in Trainings-, Validierungs- und Testdaten könnte im konkreten Anwendungsfall, der Vorhersage des Großhandelspreis in einem zukünftigen Zeitschritt, der erwartete Fehler, welcher durch die Testdaten bestimmt wird, leicht positiv verzerrt werden, falls nicht alle Trends durch die Features abgebildet werden können.
+
+\todo{Vergleich von KNN Preditions bei Shuffle und Nicht Shuffle Datensätzen}
 
 Eine weitere Möglichkeit zur Aufteilung des Datensatzes wäre die K-Fache Kreuzvalidierung. Dabei wird das Modell mehrfach trainiert, während jeweils ein anderer Teil der Trainingsdaten als Validierungsdaten vorgehalten werden. Diese Methode eignet sich besonders bei kleinen Datensätzen. In unserem Fall ist der Datensatz vergleichsweise groß, weshalb diese Methode nicht notwendig ist. Hierbei wäre nur eine geringfügige Verbesserung des Outsample Fehlers zu erwarten.