4 Analytics Finest Practices We Adopted — and Why It’s best to Too | by Analytics at Meta | Feb, 2023
Datenbasierte Entscheidungen sind allgegenwärtig. Beispiele hierfür sind die Einführung einer neuen Funktion in Ihrer Lieblings-App, die Sicherstellung, dass die Produkte bestimmte Gruppen nicht diskriminieren, die Bereitstellung eines neuen KI-Algorithmus, der Schäden reduziert, oder die Unterstützung kleiner Unternehmen bei der Verbindung mit ihren Kunden. Selbst wenn ein ML-Modell Ihnen Post A und nicht Post B anzeigt, ist dies eine datengesteuerte Entscheidung, die durch KI automatisiert wird, die Benutzerpräferenzen auf verantwortungsvolle Weise lernt.
Obwohl wir glauben, dass Daten ein Schlüsselelement für wertvolle Produkterfahrungen sind, wissen wir, dass Daten auch verantwortungsbewusst verwendet werden sollten, um Fallstricke oder suboptimale Entscheidungen zu vermeiden. Beispielsweise kann ein Vorhersagemodell für das Interesse der Benutzer bei einer Teilpopulation unserer Benutzer eine schlechte Leistung erbringen und diesen Benutzern ein unterdurchschnittliches Erlebnis bieten. In ähnlicher Weise kann ein Experiment für eine neue Produktidee zeigen, dass die Menschen mit ihrer Produkterfahrung zufriedener sind, was uns dazu veranlasst, die neue Funktion für alle einzuführen, ohne uns bewusst zu sein, dass unsere Benutzer die Funktion im Durchschnitt wertvoller finden, einen erheblichen Bruchteil der Benutzer sind mit ihrer Erfahrung eher weniger zufrieden als mehr.
Daten sind die Grundlage, auf der Meta bestrebt ist, das wertvollste und sicherste Produkterlebnis zu bieten, um die Welt näher zusammenzubringen. Um die vertrauenswürdigsten und verantwortungsbewusstesten datengesteuerten Entscheidungen im gesamten Unternehmen zu gewährleisten, haben wir Best Practices für bessere Entscheidungen entwickelt: ein zentrales Repository mit kuratierten, überprüften und gut organisierten Best Practices für verschiedene Datenprobleme. Diese Probleme treten häufig im gesamten Unternehmen auf und sind für eine vertrauenswürdige Nutzung von Daten von entscheidender Bedeutung. Ein solches Repository versetzt Personen, die mit Daten arbeiten, in die Lage, bewährte Techniken nach dem neuesten Stand der Technik zu befolgen, um wichtige Produkt- und Geschäftsprobleme zu lösen.
Das Repository baut auf den Erkenntnissen aus mehr als einem Jahrzehnt datenwissenschaftlicher Erkenntnisse auf. Zu den Vorteilen eines solchen Repositorys gehören:
- Weniger Fehler und qualitativ hochwertigere Entscheidungen durch Anwendung modernster Techniken. Wir haben zum Beispiel gelernt, dass ein Experiment, das nicht lange genug läuft, zu flüchtigen Gewinnen führen kann, und jetzt berücksichtigen wir langfristige Projektionen in unseren Experimenten.
- Zeiteinsparungen und Produktivitätsgewinne werden erreicht, indem vermieden wird, das Rad neu zu erfinden, um die besten Techniken zur Lösung eines Problems zu finden, und stattdessen direkt der besten Vorgehensweise gefolgt wird, die dem jeweiligen Problem entspricht.
- Aufbau und Verbesserung von Fähigkeiten durch Aufklärung über die besten Methoden zur Lösung wichtiger Probleme. Durch die Sozialisierung unserer Methoden können Teams im gesamten Unternehmen von der Arbeit der anderen lernen und davon profitieren.
- Einheitlichkeit und Konsistenz der Analysen durch gemeinsame Methodik.
Hier sind einige der Best Practices, die wir übernommen haben. Obwohl dies bei weitem keine vollständige Liste ist, hoffen wir, Ihnen zeigen zu können, wie sie uns dabei geholfen haben, vertrauenswürdigere und effizientere Entscheidungen auf der Grundlage von Daten zu treffen.
1) Fördern Sie Vertrauen in Ihre Entscheidungen auf der Grundlage von KI mit dem Ground Truth Maturity Framework (GTMF):
Warum es wichtig ist:
Ground-Truth-Daten sind die Grundlage von Modellen für maschinelles Lernen. Ohne qualitativ hochwertige Ground-Truth-Daten sind maschinelle Lernmodelle möglicherweise nicht stark und zuverlässig, und die daraus abgeleiteten Schlussfolgerungen und Entscheidungen sind möglicherweise nicht vertrauenswürdig. Das Ground Truth Maturity Framework (GTMF) bewertet, misst und verbessert Ground-Truth-Daten. Es vereinfacht die Prozesse, indem es in sieben Standard- und kritische Dimensionen mit diagnostischen Fragen zur Identifizierung von Risiken und Chancen sowie Metriken und Methoden zur Messung und Verbesserung der Ground-Truth-Datenqualität unterteilt wird. In verschiedenen Anwendungsfällen bei Meta hat GTMF seinen Wert und seine Wirkung durch die Reduzierung von Verzerrungen, die Verbesserung der Zuverlässigkeit des Etikettierers, die Verbesserung der Etiketteneffizienz und eine bessere Entscheidungsfindung unter Beweis gestellt.
Praktisches Beispiel für den Wert:
Die Einführung von GTMF half einem Team bei der Entwicklung von Themenklassifizierungsmodellen unter Verwendung menschlicher Labels. Es zeigte sich, dass zwar erhebliche Teamanstrengungen für die Verbesserung der Modellleistung aufgewendet wurden, diese Anstrengungen jedoch nicht ordnungsgemäß validiert werden konnten, wenn die Qualität der Bewertungslabels nicht verbessert wurde. Mithilfe der Crowd-Sourcing-Methodik CLARA identifizierten sie die Etikettierer mit der schlechtesten Leistung und sendeten Feedback, was zu erheblichen Verbesserungen der Leistung der Etikettierer führte und nachfolgende Modellverbesserungen entsperrte.
In einem anderen Beispiel wurde GTMF auf die Trainingsdaten eines der Inhaltsempfehlungsmodelle bei Meta angewendet. Eine Bewertung der Repräsentativitätsdimension ergab, dass dieser umfragebasierte Datensatz überproportional aus Datenpunkten bestand, die von häufigeren Nutzern der Plattform erhoben wurden. Basierend auf dieser Analyse stellte das Team fest, dass das Modell, wenn es mit diesen Daten trainiert wurde, bei diesen stärker engagierten Benutzern besser abschneidet, was die Schiefe seiner Trainingsdaten widerspiegelt. Weitere Schritte wurden unternommen, um die Leistung dieses Modells für Benutzer mit geringerem Engagement zu verbessern, einschließlich der Hochgewichtung der von diesen Benutzern gesammelten Daten für das Modelltraining mit Balance, einem Open-Source-Python-Paket zum Anpassen von voreingenommenen Stichproben.
Weitere Informationen: https://research.facebook.com/blog/2022/8/-introducing-the-ground-truth-maturity-framework-for-assessing-and-improving-ground-truth-data-quality/
Github-Paket: https://github.com/facebookresearch/gtmf
2) Verwenden Sie KI, um die Heterogenität der Behandlungseffekte zu lernen, um Experimente maßzuschneidern und effizientere Startentscheidungen zu treffen.
Warum es wichtig ist:
Wenn das Ground Truth Maturity Framework dabei hilft, ein gut funktionierendes KI-Modell zu erstellen, kann es dennoch sein, dass einige Benutzer mehr von diesem Modell profitieren als andere, und einige Benutzer möglicherweise überhaupt nicht von diesem neuen KI-Modell profitieren. Die Verwendung eines Experiments mit dem neuen Modell kann helfen, dies herauszufinden, wenn wir weitere KI-Modellierung auf dieses Experiment anwenden. Wenn Benutzern beispielsweise mehr Gruppeninhalte im Feed angezeigt werden, profitieren wahrscheinlich Benutzer, die es lieben, in Gruppen zu interagieren, die ihren Interessen entsprechen, während einige andere uninteressierte Benutzer möglicherweise weniger Freunde und Familieninhalte sehen und weniger zurückkommen, um Facebook zu verwenden. Wir versuchen oft, diese Auswirkungen von Fall zu Fall zu erfassen, indem wir uns Experimente ansehen und sie für bestimmte Personengruppen (unter Verwendung anonymisierter Daten) in einem bestimmten Land oder basierend auf bestimmten Benutzermerkmalen (alles mit angemessenem verantwortungsvollem Umgang mit Daten an erster Stelle) analysieren ). Wir haben jedoch festgestellt, dass diese Analyse ineffizient und mühsam ist. Glücklicherweise ist KI hier, um zu helfen: Wir können ein Experiment durchführen, von dem wir glauben, dass es den Benutzern im Allgemeinen zugute kommt, und dann können wir ein sogenanntes T-Lerner-Kausalmodell auf dem Experiment trainieren, indem wir drei aufeinanderfolgende Modelle für maschinelles Lernen trainieren. Das erste zur Vorhersage eines Ergebnisses auf Benutzerebene in der Kontrollgruppe unter Verwendung vorexperimenteller Merkmale, das zweite zur Vorhersage des gleichen Ergebnisses in der Behandlungsgruppe unter Verwendung des gleichen Satzes von Vorhersagemerkmalen und das dritte Modell zur Vorhersage der Unterschiede zwischen den beiden vorherigen Vorhersagen der Modelle. Das dritte Modell kann Ihnen beibringen, welche Arten von Benutzern am meisten von dem Experiment profitieren, dh es ist der prognostizierte individuelle Behandlungseffekt, wie viel verschiedene Arten von Benutzern profitieren, und kann bei einem Produkt- oder Ranking-Launch verwendet werden (z. B. nur Launch für Benutzer). mit einem positiv vorhergesagten individuellen Behandlungseffekt).
Praktisches Beispiel für den Wert:
Wir haben erfolgreich ein personalisiertes Feed-Ranking mit der oben genannten Methodik erstellt. Wir ergänzen den experimentellen Ansatz auch durch auf Beobachtungsdaten basierende Ansätze.
Mehr zum Thema: Ökosystem-Optimierung hier.
3) Vorhersage von Unterschieden zwischen langfristigen und kurzfristigen Ergebnissen, um bessere langfristige Entscheidungen zu treffen
Warum es wichtig ist:
Wir haben oben beschrieben, wie Sie neue KI-Modelle erstellen und personalisieren können. Aber eine der Schwierigkeiten, auf die Produktteams stoßen, ist, dass die meisten unserer Experimente sehr kostspielig sind, um sie über lange Zeiträume (z. B. ein Jahr) durchzuführen – aber wenn wir Entscheidungen zur Markteinführung eines neuen Produkts treffen, wollen wir die langfristigen Ergebnisse wissen ab dem Start, nicht die kurzfristigen (z. B. einen Monat). Glücklicherweise müssen wir nicht alle Experimente bei Meta über 1 Jahr lang durchführen, was nicht machbar wäre, um sicherzustellen, dass wir langfristige Effekte erfassen, solange wir einige kanonische Langzeitexperimente haben, auf die wir weitere Modelle anwenden können . Dies hilft uns, die langfristigen Auswirkungen kurzfristiger Experimente durch ein langfristiges Proxy-Modell vorherzusagen. Wenn wir die hier entwickelte Methodik verwenden, können wir die langfristigen Auswirkungen jedes Experiments abschätzen, während wir uns ansonsten auf Produktentscheidungen verlassen müssten, die auf kurzfristigen Auswirkungen basieren, was langfristig suboptimal sein könnte
Praktisches Beispiel für den Wert:
Wir haben die obige Methodik verwendet, um unser Benachrichtigungssystem erfolgreich zu optimieren. Wir haben festgestellt, dass, wenn wir ein Experiment lange genug durchführen, um weniger Benachrichtigungen an unsere Benutzer zu senden, dieses Experiment langfristig zu einem Benutzerwert führt, wenn auch nicht kurzfristig. Indem wir eine Handvoll Experimente dieser Art durchgeführt und analysiert haben, konnten wir in unseren Benachrichtigungsexperimenten Frühindikatoren für langfristige Steigerungen der Benutzerzufriedenheit finden, die wir nun verwenden können, um bei der Bewertung kurzfristiger Startkandidaten für Benachrichtigungen zu helfen.
Mehr lesen:
4) Verstehen Sie, wie (nicht) Proxy-Metriken in Experimenten mit dem Experiment with Modeled Variable Playbook (xMVP) verwendet werden:
Warum es wichtig ist:
Während wir sehen, wie nützlich Proxy-Metriken auf der obigen Methode zur Vorhersage von langfristigen vs. kurzfristigen Ergebnissen basieren können, müssen wir auch sehr auf Vorbehalte achten und Annahmen von Proxys kontinuierlich erneut testen. Die nächste bewährte Methode behandelt häufige Fallstricke mit xMVP. Während viele Dinge, die wir messen möchten, direkt anhand von protokollierten Ereignissen zu Meta-Produkten beobachtet werden können (z. B. hat ein neues Design die Anzahl der Menschen erhöht, die für wohltätige Zwecke spenden?), können andere Ergebnisse von Interesse nicht so einfach beobachtet werden. Wie würden Sie beispielsweise messen, welche Auswirkungen eine neue Funktion auf die Markenstimmung hat, wenn überhaupt? Oder ob eine neue Funktion Änderungen im langfristigen Verhalten bewirkt? Die „Ground-Truth“-Antwort kann nicht sofort oder direkt anhand der aufgezeichneten Daten beobachtet werden und muss auf andere Weise gemessen werden. Infolgedessen möchten Teams häufig ein vorhergesagtes Ground-Truth-Ergebnis aus einem maschinellen Lernmodell (dh eine modellierte Variable) – trainiert auf einer Beobachtungsstichprobe von Daten – als Proxy für die Ground-Truth-Messung ihres interessierenden Ergebnisses verwenden, um Experimente auszuwerten . Während es theoretisch möglich ist, dass Proxys ein nützliches Signal liefern, ist es auch möglich, dass Proxys Teams dazu bringen, schlechtere Entscheidungen zu treffen, als sie es sonst getan hätten. Das Experimentieren mit dem Playbook für modellierte Variablen (xMVP) hilft Teams in der gesamten Meta, dieses Problem der nicht skalierbaren Grundwahrheit zu bewältigen.
Praktisches Beispiel für den Wert:
Das Playbook soll Teams helfen, die Annahmen und Einschränkungen zu konfrontieren und zu verstehen, die bei der Verwendung von Proxys für die Ground-Truth-Messung im Kontext von Experimenten auftreten. Es bietet Anleitungen zur Bewertung der „Reife“ ihres Proxys für die Verwendung bei der Entscheidungsfindung, bietet Best Practices, wie sie (nicht) verwendet werden sollen, und soll Teams letztendlich bei der Entscheidung helfen, ob ein Proxy ihre Messziele erreichen kann oder nicht.
Weitere Informationen: https://medium.com/@AnalyticsAtMeta/dont-be-seduced-by-the-allure-a-guide-for-how-not-to-use-proxy-metrics-in-experiments-9530caa0eb7c
Nachdem Meta Data Science all diese Best Practices kennengelernt und entwickelt hat, hoffen wir, dass dies etwas Nützliches für die gesamte Branche und die Data Science-Community sein wird. Die Entwicklung und Einführung dieser Methoden hilft Teams nicht nur, vertrauenswürdigere datengesteuerte Entscheidungen zu treffen, sondern schafft auch ein noch junges Wissenschaftsgebiet und trägt weiterhin dazu bei. Durch unsere vielfältigen Hintergründe und Erfahrungen in der gesamten Branche können wir eine lebendige gemeinsame Wissensbasis darüber schaffen, wie man Data Science konsequent durchführt, um den größtmöglichen Wert für alle Benutzer zu schaffen, die jede App überall und gerecht nutzen. Welche Best Practices planen Sie in Ihrem Unternehmen einzuführen? Über welche anderen Best-Practice-Themen möchten Sie mehr erfahren? Lass es uns in den Kommentaren wissen!
Authors: Akos Lada, Aude Hofleitner
Comments are closed.