Lernen Sie, aus menschlichem Feedback zusammenzufassen

Zusammenfassung: Da Sprachmodelle leistungsfähiger werden, werden Training und Evaluierung zunehmend durch die Daten und Metriken behindert, die für eine bestimmte Aufgabe verwendet werden. Beispielsweise werden abstrakte Modelle oft darauf trainiert, menschliche Referenz-Abstracts vorherzusagen und mit ROUGE bewertet, aber diese beiden Metriken sind grobe Annäherungen an das, was uns wirklich wichtig ist: abstrakte Qualität. In dieser Arbeit zeigen wir, dass es möglich ist, die Qualität von Zusammenfassungen signifikant zu verbessern, indem wir ein Modell trainieren, um menschliche Präferenzen zu optimieren. Wir sammeln einen großen, qualitativ hochwertigen Datensatz menschlicher Vergleiche zwischen Digests, trainieren ein Modell, um das vom Menschen bevorzugte Digest vorherzusagen, und verwenden dieses Modell als Belohnungsfunktion, um eine Digest-Richtlinie mithilfe des Reinforcement Learning zu verfeinern. Wir wenden unsere Methode auf eine Version des TL-Datensatzes an; DR von Reddit-Beiträgen und stellen fest, dass unsere Modelle menschliche Referenzzusammenfassungen und viel größere Modelle, die allein durch überwachtes Lernen verfeinert wurden, deutlich übertreffen. Unsere Modelle lassen sich auch auf CNN/DM-Nachrichten übertragen und erzeugen Zusammenfassungen, die fast so gut sind wie die menschliche Referenz, ohne nachrichtenspezifische Feinabstimmung. Wir führen eingehende Analysen durch, um unseren menschlichen Feedback-Datensatz und fein abgestimmte Modelle zu verstehen. Wir stellen fest, dass unser Belohnungsmodell auf neue Datensätze verallgemeinert wird und dass die Optimierung unseres Belohnungsmodells bessere Zusammenfassungen liefert als die Optimierung von RED nach Menschen. Wir hoffen, dass die Beweise in unserem Papier Forscher für maschinelles Lernen dazu motivieren, genauer darauf zu achten, wie sich ihr Trainingsverlust auf das eigentlich gewünschte Modellverhalten auswirkt.

Technologie Mar 5, 2023 0 24 Add to Reading List

Zusammenfassung: Da Sprachmodelle leistungsfähiger werden, werden Training und Evaluierung zunehmend durch die Daten und Metriken behindert, die für eine bestimmte Aufgabe verwendet werden. Beispielsweise werden abstrakte Modelle oft darauf trainiert, menschliche Referenz-Abstracts vorherzusagen und mit ROUGE bewertet, aber diese beiden Metriken sind grobe Annäherungen an das, was uns wirklich wichtig ist: abstrakte Qualität. In dieser Arbeit zeigen wir, dass es möglich ist, die Qualität von Zusammenfassungen signifikant zu verbessern, indem wir ein Modell trainieren, um menschliche Präferenzen zu optimieren. Wir sammeln einen großen, qualitativ hochwertigen Datensatz menschlicher Vergleiche zwischen Digests, trainieren ein Modell, um das vom Menschen bevorzugte Digest vorherzusagen, und verwenden dieses Modell als Belohnungsfunktion, um eine Digest-Richtlinie mithilfe des Reinforcement Learning zu verfeinern. Wir wenden unsere Methode auf eine Version des TL-Datensatzes an; DR von Reddit-Beiträgen und stellen fest, dass unsere Modelle menschliche Referenzzusammenfassungen und viel größere Modelle, die allein durch überwachtes Lernen verfeinert wurden, deutlich übertreffen. Unsere Modelle lassen sich auch auf CNN/DM-Nachrichten übertragen und erzeugen Zusammenfassungen, die fast so gut sind wie die menschliche Referenz, ohne nachrichtenspezifische Feinabstimmung. Wir führen eingehende Analysen durch, um unseren menschlichen Feedback-Datensatz und fein abgestimmte Modelle zu verstehen. Wir stellen fest, dass unser Belohnungsmodell auf neue Datensätze verallgemeinert wird und dass die Optimierung unseres Belohnungsmodells bessere Zusammenfassungen liefert als die Optimierung von RED nach Menschen. Wir hoffen, dass die Beweise in unserem Papier Forscher für maschinelles Lernen dazu motivieren, genauer darauf zu achten, wie sich ihr Trainingsverlust auf das eigentlich gewünschte Modellverhalten auswirkt.