Wieviele Daten benötigt man für das Training von Neuronalen Netzen?

Wieviele Daten benötigt man zum Training von Neuronalen Netzen oder anderen Machine-Learning-Verfahren?

So viele wie notwendig, aber nicht mehr!

Anders als bei modellzentrierten Ansätzen hängt die Anzahl der notwendigen Trainingsdaten bei datenzentrierten Machine-Learning-Verfahren nicht vom Typ des Modells sondern von der Komplexität der gesuchten Funktionalität bzw. der gegebenen Problemstellung ab.

Ob genügend Daten für das Training verwendet wurden, kann dabei aus den dazugehörigen Validierungsmethoden abgeleitet werden. Damit lässt sich abschätzen, ob man weitere Trainingsdaten benötigt oder ob schon eine ausreichende Datendichte vorhanden ist. Wenn die Datendichte noch nicht ausreicht, dann hilft die Methodik auch bei einer gezielten Erweiterung der zusätzlich benötigten Daten, sodass Machine-Learning auch für ein effektives Versuchsdesign verwendet werden kann.

Da die Komplexität der Problemstellung und die relevanten Parameter am Anfang einer Entwicklung meistens nicht bekannt ist, erhält man so den weit natürlicheren und effizienteren Zugang zum Problem als mit Verfahren, welche z.B. von der Anzahl der untersuchten Parameter abhängen - etwa bei der klassischen faktoriellen Versuchsplanung. Letztere bergen zudem die Gefahr, dass man weit mehr Daten erzeugen muss als eigentlich notwendig sind, um die Problemstellung ausreichend zu repräsentieren.

Weitere Details und Informationen zur Fragestellung erhält man von info@andata.at.

Zuletzt aktualisiert am 2017-05-01 von Andreas Kuhn.

Zurück