Warum übertreffen Baummodelle immer noch Deep Learning bei tabellarischen Daten?

Zusammenfassung: Obwohl Deep Learning enorme Fortschritte bei Text- und Bilddatensätzen gemacht hat, ist seine Überlegenheit gegenüber tabellarischen Daten unklar. Wir bieten viele Referenzen zu Standard- und neuen Deep-Learning-Methoden sowie baumbasierten Modellen wie XGBoost und Random Forests für eine große Anzahl von Datensätzen und Hyperparameter-Kombinationen. Wir definieren einen Standardsatz von 45 Datensätzen aus verschiedenen Bereichen mit klaren Merkmalen tabellarischer Daten und einer Benchmarking-Methodik, die sowohl passende Modelle als auch das Finden guter Hyperparameter berücksichtigt. Die Ergebnisse zeigen, dass Baummodelle bei mittelgroßen Daten ($\sim$10.000 Samples) auf dem neuesten Stand der Technik bleiben, selbst ohne Berücksichtigung ihrer überlegenen Geschwindigkeit. Um diese Diskrepanz zu verstehen, führen wir eine empirische Untersuchung der unterschiedlichen induktiven Verzerrungen von Baummodellen und neuronalen Netzen (NN) durch. Dies führt zu einer Reihe von Herausforderungen, die Forscher anleiten sollten, die darauf abzielen, Array-spezifische NNs zu konstruieren: 1. robust gegenüber nicht informativen Merkmalen zu sein, 2. Datenorientierung zu bewahren und 3. unregelmäßige Funktionen leicht lernen zu können. Um die Forschung zu tabellarischen Architekturen anzuregen, stellen wir einen Standard-Benchmark und Rohdaten für Baselines bereit: jeder Punkt einer Hyperparameter-Forschung von 20.000 Rechenstunden für jeden Lernenden.

Technologie Aug 3, 2022 0 49 Add to Reading List

Zusammenfassung: Obwohl Deep Learning enorme Fortschritte bei Text- und Bilddatensätzen gemacht hat, ist seine Überlegenheit gegenüber tabellarischen Daten unklar. Wir bieten viele Referenzen zu Standard- und neuen Deep-Learning-Methoden sowie baumbasierten Modellen wie XGBoost und Random Forests für eine große Anzahl von Datensätzen und Hyperparameter-Kombinationen. Wir definieren einen Standardsatz von 45 Datensätzen aus verschiedenen Bereichen mit klaren Merkmalen tabellarischer Daten und einer Benchmarking-Methodik, die sowohl passende Modelle als auch das Finden guter Hyperparameter berücksichtigt. Die Ergebnisse zeigen, dass Baummodelle bei mittelgroßen Daten ($\sim$10.000 Samples) auf dem neuesten Stand der Technik bleiben, selbst ohne Berücksichtigung ihrer überlegenen Geschwindigkeit. Um diese Diskrepanz zu verstehen, führen wir eine empirische Untersuchung der unterschiedlichen induktiven Verzerrungen von Baummodellen und neuronalen Netzen (NN) durch. Dies führt zu einer Reihe von Herausforderungen, die Forscher anleiten sollten, die darauf abzielen, Array-spezifische NNs zu konstruieren: 1. robust gegenüber nicht informativen Merkmalen zu sein, 2. Datenorientierung zu bewahren und 3. unregelmäßige Funktionen leicht lernen zu können. Um die Forschung zu tabellarischen Architekturen anzuregen, stellen wir einen Standard-Benchmark und Rohdaten für Baselines bereit: jeder Punkt einer Hyperparameter-Forschung von 20.000 Rechenstunden für jeden Lernenden.