Meistern Sie die Herausforderungen der Arbeit mit kleinen Datenmengen

VentureBeat freut sich, Andrew Brust und Tony Baer als regelmäßige Mitwirkende begrüßen zu dürfen, um unser Engagement für die Bereitstellung modernster Datentechnologie weiter zu verstärken. Achten Sie auf ihre Beiträge in der Datenpipeline.

Hatten Sie Probleme mit Flugzeugsitzen, weil Sie zu groß sind? Oder vielleicht hast du das oberste Regal im Supermarkt nicht erreicht, weil du zu klein bist? Wie auch immer, fast alle diese Dinge sind auf die durchschnittliche Körpergröße einer Person ausgelegt: 170 cm – oder 5 Fuß 7 Zoll.

Tatsächlich ist fast alles in unserer Welt auf Durchschnittswerte ausgelegt.

Die meisten Unternehmen verwenden nur Durchschnittswerte, weil sie die meisten Fälle abdecken. Sie ermöglichen Unternehmen, ihre Produktionskosten zu senken und ihre Gewinne zu maximieren. Es gibt jedoch viele Szenarien, in denen es nicht ausreicht, 70-80 % der Fälle abzudecken. Als Branche müssen wir verstehen, wie wir effektiv mit den verbleibenden Fällen umgehen können.

In diesem Artikel werden wir die Herausforderungen bei der Arbeit mit kleinen Daten in zwei Sonderfällen erörtern: wenn Datensätze im Allgemeinen wenige Eingaben enthalten und wenn es sich um schlecht dargestellte Unterteile von Daten handelt, größere und voreingenommene Datensätze. Sie finden auch anwendbare Ratschläge, wie Sie diese Probleme angehen können.
Vorfall
Low-Code/No-Code-Vertex

Schließen Sie sich am 9. November virtuell den Top-Führungskräften von heute beim Low-Code/No-Code-Gipfel an. Melden Sie sich noch heute für Ihren kostenlosen Pass an.
hier registrieren Was sind kleine Daten?
Es ist wichtig, zuerst das Konzept von Small Data zu verstehen. Small Data sind im Gegensatz zu Big Data Daten, die in kleinen Mengen ankommen, die für Menschen oft verständlich sind. Kleine Daten können manchmal auch eine Teilmenge eines größeren Datensatzes sein, der eine bestimmte Gruppe beschreibt.
Was sind die Probleme mit kleinen Daten für Aufgaben im wirklichen Leben?
Es gibt zwei gängige Szenarien für kleine Datenherausforderungen.

Szenario 1: Die Datenverteilung beschreibt die Außenwelt ziemlich gut, aber Sie haben einfach nicht viele Daten. Es kann teuer sein, es zu sammeln, oder es kann Objekte beschreiben, die in der realen Welt nicht häufig zu sehen sind. Zum Beispiel Brustkrebsdaten für jüngere Frauen: Sie haben wahrscheinlich eine angemessene Menge an Daten für weiße Frauen im Alter von 45-55+, aber nicht für jüngere.

Szenario 2: Möglicherweise erstellen Sie ein Übersetzungssystem für eine der ressourcenschwachen Sprachen. Beispielsweise sind viele der auf Italienisch verfügbaren Daten online verfügbar, aber bei rätoromanischen Sprachen ist die Verfügbarkeit von nutzbaren Daten komplizierter.
Problem 1: Das Modell wird anfällig für Overfitting
Bei großen Datensätzen können Sie eine Überanpassung vermeiden, bei kleinen Datensätzen ist dies jedoch viel schwieriger. Sie riskieren, ein übermäßig kompliziertes Modell zu erstellen, das gut zu Ihren Daten passt, aber in realen Szenarien nicht so effektiv ist.

Lösung: Verwenden Sie einfachere Vorlagen. Wenn Ingenieure mit kleinen Datenmengen arbeiten, sind sie normalerweise versucht, kompliziertere Modelle zu verwenden, um kompliziertere Transformationen durchzuführen und komplexere Abhängigkeiten zu beschreiben. Diese Modelle helfen Ihnen nicht bei der Lösung Ihres Overfitting-Problems, wenn Ihr Datensatz klein ist und Sie nicht den Luxus haben, einfach mehr Daten in den Algorithmus einzuspeisen.

Neben der Überanpassung stellen Sie möglicherweise auch fest, dass ein Modell, das mit kleinen Daten trainiert wurde, nicht sehr gut konvergiert. Bei solchen Daten kann eine vorzeitige Konvergenz ein großes Problem für Entwickler darstellen, da das Modell bei lokalen Optima sehr schnell versagt und es schwierig ist, sich davon zu erholen.

In diesem Szenario ist es möglich, Ihren Datensatz zu überabtasten. Es gibt viele Algorithmen wie klassische Sampling-Methoden wie die Synthetic Minority Oversampling Technique (SMOTE) und ihre modernen Modifikationen und auf neuronalen Netzwerken basierende Ansätze wie Generative Adversarial Networks (GAN). Die Lösung hängt davon ab, wie viele Daten Sie tatsächlich haben. Stacking kann Ihnen oft dabei helfen, die Messwerte zu verbessern und nicht überzupassen.

Eine andere mögliche Lösung ist die Verwendung von Transfer Learning. Transfer Learning kann verwendet werden, um effektiv zu entwickeln ...

Startups Oct 28, 2022 0 37 Add to Reading List

Meistern Sie die Herausforderungen der Arbeit mit kleinen Datenmengen

VentureBeat freut sich, Andrew Brust und Tony Baer als regelmäßige Mitwirkende begrüßen zu dürfen, um unser Engagement für die Bereitstellung modernster Datentechnologie weiter zu verstärken. Achten Sie auf ihre Beiträge in der Datenpipeline.

Hatten Sie Probleme mit Flugzeugsitzen, weil Sie zu groß sind? Oder vielleicht hast du das oberste Regal im Supermarkt nicht erreicht, weil du zu klein bist? Wie auch immer, fast alle diese Dinge sind auf die durchschnittliche Körpergröße einer Person ausgelegt: 170 cm – oder 5 Fuß 7 Zoll.

Tatsächlich ist fast alles in unserer Welt auf Durchschnittswerte ausgelegt.

Die meisten Unternehmen verwenden nur Durchschnittswerte, weil sie die meisten Fälle abdecken. Sie ermöglichen Unternehmen, ihre Produktionskosten zu senken und ihre Gewinne zu maximieren. Es gibt jedoch viele Szenarien, in denen es nicht ausreicht, 70-80 % der Fälle abzudecken. Als Branche müssen wir verstehen, wie wir effektiv mit den verbleibenden Fällen umgehen können.

In diesem Artikel werden wir die Herausforderungen bei der Arbeit mit kleinen Daten in zwei Sonderfällen erörtern: wenn Datensätze im Allgemeinen wenige Eingaben enthalten und wenn es sich um schlecht dargestellte Unterteile von Daten handelt, größere und voreingenommene Datensätze. Sie finden auch anwendbare Ratschläge, wie Sie diese Probleme angehen können.

Vorfall

Low-Code/No-Code-Vertex

Schließen Sie sich am 9. November virtuell den Top-Führungskräften von heute beim Low-Code/No-Code-Gipfel an. Melden Sie sich noch heute für Ihren kostenlosen Pass an.

hier registrieren Was sind kleine Daten?

Es ist wichtig, zuerst das Konzept von Small Data zu verstehen. Small Data sind im Gegensatz zu Big Data Daten, die in kleinen Mengen ankommen, die für Menschen oft verständlich sind. Kleine Daten können manchmal auch eine Teilmenge eines größeren Datensatzes sein, der eine bestimmte Gruppe beschreibt.

Was sind die Probleme mit kleinen Daten für Aufgaben im wirklichen Leben?

Es gibt zwei gängige Szenarien für kleine Datenherausforderungen.

Szenario 1: Die Datenverteilung beschreibt die Außenwelt ziemlich gut, aber Sie haben einfach nicht viele Daten. Es kann teuer sein, es zu sammeln, oder es kann Objekte beschreiben, die in der realen Welt nicht häufig zu sehen sind. Zum Beispiel Brustkrebsdaten für jüngere Frauen: Sie haben wahrscheinlich eine angemessene Menge an Daten für weiße Frauen im Alter von 45-55+, aber nicht für jüngere.

Szenario 2: Möglicherweise erstellen Sie ein Übersetzungssystem für eine der ressourcenschwachen Sprachen. Beispielsweise sind viele der auf Italienisch verfügbaren Daten online verfügbar, aber bei rätoromanischen Sprachen ist die Verfügbarkeit von nutzbaren Daten komplizierter.

Problem 1: Das Modell wird anfällig für Overfitting

Bei großen Datensätzen können Sie eine Überanpassung vermeiden, bei kleinen Datensätzen ist dies jedoch viel schwieriger. Sie riskieren, ein übermäßig kompliziertes Modell zu erstellen, das gut zu Ihren Daten passt, aber in realen Szenarien nicht so effektiv ist.

Lösung: Verwenden Sie einfachere Vorlagen. Wenn Ingenieure mit kleinen Datenmengen arbeiten, sind sie normalerweise versucht, kompliziertere Modelle zu verwenden, um kompliziertere Transformationen durchzuführen und komplexere Abhängigkeiten zu beschreiben. Diese Modelle helfen Ihnen nicht bei der Lösung Ihres Overfitting-Problems, wenn Ihr Datensatz klein ist und Sie nicht den Luxus haben, einfach mehr Daten in den Algorithmus einzuspeisen.

Neben der Überanpassung stellen Sie möglicherweise auch fest, dass ein Modell, das mit kleinen Daten trainiert wurde, nicht sehr gut konvergiert. Bei solchen Daten kann eine vorzeitige Konvergenz ein großes Problem für Entwickler darstellen, da das Modell bei lokalen Optima sehr schnell versagt und es schwierig ist, sich davon zu erholen.

In diesem Szenario ist es möglich, Ihren Datensatz zu überabtasten. Es gibt viele Algorithmen wie klassische Sampling-Methoden wie die Synthetic Minority Oversampling Technique (SMOTE) und ihre modernen Modifikationen und auf neuronalen Netzwerken basierende Ansätze wie Generative Adversarial Networks (GAN). Die Lösung hängt davon ab, wie viele Daten Sie tatsächlich haben. Stacking kann Ihnen oft dabei helfen, die Messwerte zu verbessern und nicht überzupassen.

Eine andere mögliche Lösung ist die Verwendung von Transfer Learning. Transfer Learning kann verwendet werden, um effektiv zu entwickeln ...