Menu

16 november 2016 • Gepubliceerd door ; maart 25, 2024 at 6:34 pm Qdraw

Voorspellen of een gebruiker lid blijft

De toekomst voorspellen wie wil dat nu niet? We zijn een stap dichter bij deze droom gekomen door gebruik te maken met Artifical Intelligence. In dit artikel geef ik een sneak preview op basis van een demo case en stukje theorie. We hebben Machine Learning toegepast om een succesvolle predictive analyse te maken op basis van anonieme gebruikersdata.

Supervised Machine Learning vs Unsupervised Machine Learning.

Alles begint bij een vraag die je straks aan de computer gaat stellen. De computer gaat antwoord geven op deze vraag door naar de data te kijken, deze data wordt ook wel trainingsdata genoemd. Is de uitkomst van de vraag al in de data of moet het Machine Learning-algoritme de uitkomsten buiten de data zoeken. Bij Supervised Machine Learning ligt de uitkomst in de ingevoerde training data en bij Unsupervised ligt het antwoord buiten de invoerde training data. In de onderstaande alinea geef ik een aantal voorbeelden.

Verschillende Machine Learning categorieën

Regressie

Hoeveel auto’s ga ik volgende maand verkopen? De uitkomst van deze voorspelling ligt al in de data besloten. Daarom wordt er bij Supervised Machine Learning ook 75% van de data gebruikt en de laatste 25% ter controle ingezet. De uitkomst van deze Machine Learning categorie is een getal.

Categoriseren

Is het creditcard fraude? Hier zijn twee antwoorden op mogelijk, namelijk ja of nee. In dit geval zijn er twee antwoorden mogelijk maar bij categoriseren kan het ook zijn dat het type auto wordt voorspeld, zolang het type maar in de trainingsdata zit. Categoriseren is een vorm van Supervised Machine Learning.

Clustering

Welke doelgroep segmenten zijn er. Nu kun je checken of de doelgroep van je product net zo is als dat je zelf denkt. Het verschil tussen Clustering en Categoriseren is dat bij Clustering de uitkomst buiten de trainingsdata ligt.

Het begint allemaal met het stellen van de juiste vraag

In de vraag zit het antwoord in besloten is een bekend gezegde. Zo ben je voor predictive analysing meerdere onderwerpen nodig. In het voorbeeld van de creditcard fraude is het belangrijk om te weten welke data je nodig bent. Zo is het handig om te starten met wat jij verwacht dat de meest waarschijnlijke oorzaken zijn van creditcardfraude. Het kennen en toepassen van de juiste Machine Learning-categorie.

Van ruwe data naar trainingsdata.

Een ruwe diamantsteen omzetten naar een mooi gepolijste diamant. Op basis van de ruwe handelingsdata hebben we een script ontwikkeld die filtert uit de ruwe data hoeveel keer een bepaalde handeling wordt uitgevoerd. Dit itererende proces is in de praktijk het meeste werk. Het verhaal gaat verder na de afbeelding


Trainingsdata script node.js | foto 3

Machine Learning algoritme keuze

De keuze van het Machine Learning algoritme wordt in eerste instantie bepaald door in welke categorie de vraag valt. Valt de vraag binnen regressie of categoriseren? Binnen deze categorieën zijn er ook nog verschillende algoritmes en bij supervised Machine Learning is het dankzij de controle waardes het succes meetbaar. In onze case waarbij we kunnen voorspellen hoeveel procent van de gebruikers gaat afhaken kunnen dit met 90% zekerheid stellen.


Microsoft Azure Machine Learning Training Experiment | foto 2

Model

Voordat je voorspellingen kunt doen moet je eerst een model trainen. Een model is computergegeneerde regelset die kan worden toegepast op nieuwe data. Wanneer je nieuwe data aan het model gaat voeden gaat het model voorspellingen doen. Zo hebben wij een model of een gebruiker gaat afhaken of niet. Dit model voeden wij een aantal analysepunten en zo kunnen wij de kans berekenen of de gebruiker lid blijft of niet.


Microsoft Azure Machine Learning Predictive Experiment, AzureML | foto 1

Beter dan willekeurig is een enorme winst. Als je al 1% beter bent dan compleet willekeurig dan is het de moeite waard om in te zetten. Dit zorgt ervoor dat je op dit moment net iets beter bent dan de concurrent. Wie wil nu niet beter zijn dan de concurrent een manier is om beter gebruik te maken van de bestaande data!


Machine Learning iteration model | foto 4

Deze blog is geschreven door Dion van Velde en verscheen op Colours.nl en mijn eigen blog Qdraw

Tags: , , , ,

Gecategoriseerd in:

Dit bericht is geschreven door: Dion

Lees ook deze blogs