Skip to content

Commit

Permalink
Added more Erkenntnisse
Browse files Browse the repository at this point in the history
  • Loading branch information
V3lop5 committed Aug 15, 2021
1 parent 3a5d058 commit 2bae577
Show file tree
Hide file tree
Showing 2 changed files with 9 additions and 3 deletions.
4 changes: 3 additions & 1 deletion 03_Datenanalyse.tex
Original file line number Diff line number Diff line change
@@ -1 +1,3 @@
\section{Deskriptive Datenanalyse}
\section{Deskriptive Datenanalyse}

\subsection{Trend im Großhandelspreis}
8 changes: 6 additions & 2 deletions 04_Datenauswahl.tex
Original file line number Diff line number Diff line change
Expand Up @@ -24,8 +24,12 @@ \subsection{Unterteilung der Datensätze}

Die \textbf{Testdaten} dienen abschließend zur Bestimmung des erwarteten Fehlers, den das finale Modell, welches zuvor mit den Validierungsdaten ausgewählt wurde, beim späteren Einsatz machen wird. Dieser erwartete Fehler wird als Grundlage für den Vergleich des Benchmarkmodells und der Deep Learning Modelle verwendet.

In unserem Anwendungsfall ist es wichtig, dass der Datensatz \textbf{nicht} sequentiell in Trainings-, Validierungs- und Testdaten unterteilt wird. Da die für den Datensatz verwendeten Daten einen Trend und/oder Saisonalität aufweisen, würde der Datensatz durch eine sequentielle Aufteilung in drei nicht zwangsläufig repräsentative Bereiche aufgeteilt werden. Beispielsweise könnte die Aufteilung eines zweijährigen Zeitraums bedeuten, dass als Trainingsdaten das erste Jahr verwendet wird und Validierungsdaten die erste Hälfte des zweiten Jahres. Die Validierungsdaten hätten deshalb keine Aussagekraft über die zweite Jahreshälfte.
In unserem Anwendungsfall ist es wichtig, dass der Datensatz \textbf{nicht} sequentiell in Trainings-, Validierungs- und Testdaten unterteilt wird. Da die für den Datensatz verwendeten Daten einen Trend und/oder Saisonalität aufweisen, würde der Datensatz durch eine sequentielle Aufteilung in drei nicht zwangsläufig repräsentative Bereiche aufgeteilt werden. Beispielsweise könnte die Aufteilung eines zweijährigen Zeitraums bedeuten, dass als Trainingsdaten das erste Jahr verwendet wird und Validierungsdaten die erste Hälfte des zweiten Jahres. Die Validierungsdaten hätten deshalb keine Aussagekraft über die zweite Jahreshälfte. Wären beispielsweise in diesem Bereich weitere Erkenntnisse enthalten, so würden diese bei einer sequentiellen Aufteilung nicht in Bestimmung des Modells einfließen.

Durch eine zufällige Aufteilung des Datensatzes wird diesem Problem entgegen gewirkt. Die Aussagekraft der Validierungsdaten und Testdaten ist höher und die Gefahr von Overfitting wird minimiert. Zudem wird durch die größere Vielfalt der Trainingsdaten ein allgemeingültigeres Modell erstellt.
Durch eine zufällige Aufteilung des Datensatzes wird diesem Problem entgegen gewirkt. Die Aussagekraft der Validierungsdaten und Testdaten ist höher und die Gefahr von Overfitting wird minimiert. Zudem wird durch die größere Vielfalt der Trainingsdaten ein allgemeingültigeres Modell erstellt, welches bessere Ergebnise in der Praxis liefern wird.

Durch die zufällige Aufteilung in Trainings-, Validierungs- und Testdaten könnte im konkreten Anwendungsfall, der Vorhersage des Großhandelspreis in einem zukünftigen Zeitschritt, der erwartete Fehler, welcher durch die Testdaten bestimmt wird, leicht positiv verzerrt werden, falls nicht alle Trends durch die Features abgebildet werden können.

\todo{Vergleich von KNN Preditions bei Shuffle und Nicht Shuffle Datensätzen}

Eine weitere Möglichkeit zur Aufteilung des Datensatzes wäre die K-Fache Kreuzvalidierung. Dabei wird das Modell mehrfach trainiert, während jeweils ein anderer Teil der Trainingsdaten als Validierungsdaten vorgehalten werden. Diese Methode eignet sich besonders bei kleinen Datensätzen. In unserem Fall ist der Datensatz vergleichsweise groß, weshalb diese Methode nicht notwendig ist. Hierbei wäre nur eine geringfügige Verbesserung des Outsample Fehlers zu erwarten.

0 comments on commit 2bae577

Please sign in to comment.