Waarom voorspellen op basis van lengte, leeftijd en gewicht niet goed werkt.

SizeBuddy
30 mrt 2023
4 minuten om te lezen

Introductie

Heeft u ooit een maatpak laten meten waarbij de kleermaker u vroeg om uw lengte, leeftijd en gewicht?

Bij SizeBuddy zijn we in 2021 begonnen met het volgende vraagstuk: Hoe kunnen we kledingmaten zo goed mogelijk voorspellen om retourneringen te voorkomen? De stip op de horizon was snel gezet; een accurate tool waarbij gebruiksgemak voor zowel de consument als de kledingverkoper centraal staat. Om dit te bereiken was er natuurlijk wel een methode in de back-end nodig om voorspellingen te doen. In dit artikel beschrijven we waarom we destijds hebben gekozen om geen gebruik te maken van lengte leeftijd en gewicht in voorspellingen, maar van een goed zittend kledingstuk.

Het idee achter lengte, leeftijd en gewicht

De belangrijkste reden om te kiezen voor een oplossing waarbij lengte, leeftijd en gewicht niet worden gebruikt in voorspellingen is een statistische. Een lang verhaal kort, voorspellen aan de hand van lengte, leeftijd en gewicht is niet accuraat genoeg om goede maatadviezen te geven. In dit artikel zullen we toelichten waarom.

In de basis zou lichaamsmaten voorspellen aan de hand van lengte leeftijd en gewicht een mooi principe zijn. U kunt zich voorstellen dat het hebben van een formule waarin persoonlijke gegevens worden ingevoerd en verwachte lichaamsmaten uit komen een aantrekkelijke optie lijkt. Dit vonden we bij SizeBuddy in eerste instantie ook, dus gingen we op onderzoek uit om zo’n formule te maken, en te testen. Als drie oprichters met allen een universitair diploma in kwantitatieve studies was deze taak ons op het lijf geschreven.

Het idee was om aan de hand van een grote dataset een formule te maken die bijvoorbeeld de borst- of heupomtrek van iemand kan voorspellen. Dit was goed te doen door gebruik te maken van een regressieanalyse.

Een toelichting over een regressieanalyse:

In een regressieanalyse meet een software de invloed van verschillende factoren op een output factor. Dit klinkt moeilijk, maar is begrijpelijker als we er een praktijkvoorbeeld bij pakken.

Stel dat u veel planten (van dezelfde soort) kweekt bij u thuis en u bent benieuwd wat voor invloed zonlicht en water geven hebben op de groei van deze planten. U noteert de groei van de planten per week (centimeters), het aantal uren zonlicht en hoe veel water (liters) u de plant heeft gegeven. Stel dat u deze data analyseert in een regressieanalyse zal deze factoren teruggeven. Deze factoren laten zien hoe veel invloed water en zonlicht hebben op de groei van uw planten. In dit geval zou bijvoorbeeld een factor van 0,1 op water en 2 op zonlicht het volgende zeggen: Als u 1 liter water per week extra geeft groeit de plant gemiddeld 0,1 centimeter in de week harder. Voor zonlicht zou gelden dat wanneer de plant 1 uur per week extra in het zonnetje staat deze 2 centimeter extra groeit.

De factoren vormen in deze analyse samen met een intercept (beginpositie van een formule, snijpunt met de y-as) de meest accurate formule om in dit geval plantengroei te voorspellen. Deze factoren zijn alleen accuraat als ze samen in 1 formule worden gebruikt.

Om een regressieanalyse te doen heeft men eerst genoeg data nodig. Hoe meer datapunten er beschikbaar zijn, hoe accurater de voorspellingen worden. Na een tijd hadden we bij SizeBuddy een database gevonden waarin de lichamelijke gegevens (lengte, leeftijd, gewicht, sekse, verschillende lichaamsmaten) staan opgeslagen. Deze dataset is de dataset die de Amerikaanse overheid gebruikt voor onderzoeken en mag dus als accuraat worden gezien. Ook na verschillende testen om de validiteit van deze dataset te testen bleek dat dit zeer accuraat is.

Na het uitvoeren van de regressieanalyses kwamen er formules uit om verschillende lichaamsmaten te voorspellen (die we bij SizeBuddy om zouden kunnen zetten naar correcte maten). Bij het testen van deze formules kwam al snel naar voren dat deze werkwijze geen accurate voorspellingen op zou kunnen leveren.

Ineffectiviteit van de formule:

Geen enkele formule om iets te voorspellen is perfect, dus om uit te zoeken hoe accuraat deze formule is hebben wij de formule lichaamsmaten laten voorspellen en dit vergeleken met de werkelijke lichaamsmaten van deze (5000) mensen. In onderstaande grafiek staan de verschillen tussen de voorspelde middelomvang en de daadwerkelijke middelomvang van deze (5000) mensen weergeven.

(de personen zijn gesorteerd op gewicht, de lichtste persoon links en zwaarste rechts)

Het gemiddelde verschil in middelomtrek tussen 2 maten (maat M en L bijvoorbeeld) is 5 centimeter. De punten tussen de gele lijnen illustreren de mensen die een voorspellingen van hun middelomtrek hebben in lijn met hun maat. Alle punten boven en onder dit vlak zijn mensen waarvan de middelomtrek dusdanig afwijkt dat zij op basis van middelomtrek een verkeerde maat aanbevolen zullen krijgen. Voor al deze mensen werkt deze formule dus niet!

Bij SizeBuddy was het snel duidelijk dat een dergelijke formule geen accurate voorspellingen geeft voor iedereen. Veel mensen zullen een verkeerde voorspelling krijgen omdat de formule uitgaat van gemiddelden en de uitzonderingen op de regel vergeet. Op zich is het ook wel logisch als u er over nadenkt. Als we twee mannen van 1,96 en 120 kilo naast elkaar zetten zou de formule voor beide mannen dezelfde maten voorspellen. Echter, als de ene man een bodybuilder is en de ander een man obesitas heeft is het logisch dat deze mannen niet dezelfde kledingmaat hebben.

De SizeBuddy oplossing:

Toen duidelijk werd dat werken op basis van formules voor het voorspellen van lichaamsmaten niet werkt, zijn we bij SizeBuddy gaan zoeken naar andere oplossingen. Na veel brainstormen bedachten we ons: wat als we informatie die iedereen al heeft, een kledingitem wat al goed zit, verwerken om een juiste voorspelling te geven voor alle andere merken? Zo is SizeBuddy geboren. Bij analyse van voorspellingen op deze manier werden nauwelijks verkeerde voorspellingen gevonden. Hoe makkelijk is het bovendien om een kledingitem dat je goed zit in te vullen? Bovendien hebben we bij SizeBuddy in 2022 een manier gevonden om ditzelfde principe toe te passen op schoenen, met succes!

Sindsdien hebben we SizeBuddy uitgewerkt tot de meest accurate en gebruiksvriendelijke tool voor kleding- en schoenenwebshops op de markt. Vandaag de dag maken we honderden consumenten blij met juiste voorspellingen, en velen ondernemers en kledingwebshops met minder retourneringen en een hogere conversieratio. Zouden we ook uw kledingwebshop efficiënter mogen maken?

Contact

Waarom voorspellen op basis van lengte, leeftijd en gewicht niet goed werkt.

Recente blogposts

Opmerkingen