Bij kredietbeheer willen we grip krijgen op het risico van wanbetaling. Dit kunnen we ondersteunen met een beslismodel gebaseerd op data-analyse. Het bestuderen van de data en het maken van het model kan natuurlijk met de hand plaatsvinden. Dit heeft als voordeel dat men nauw bij het proces betrokken blijft en precies begrijpt hoe het model werkt. Voor grotere gegevensbestanden verdient computeranalyse de voorkeur, omdat computers beter zijn in patroonherkenning. Hiermee komen we in het domein van het machinaal leren, ofwel machine learning. Wat kunt u ermee als credit manager?

De Latijnse zegswijze ‘deus ex machina’ is afkomstig uit de theaterwereld en wordt gebruikt als een toneelstuk op een gekunstelde, maar vooral onverwachte manier eindigt. Letterlijk betekent het ‘god uit de machine’. Voor de toneelschrijver is het een handige truc om het plot een andere wending te geven. Elke wending kan immers, hoe ongeloofwaardig ook, worden gelegitimeerd door het ingrijpen van de een of de andere godheid. We gaan het hier echter niet over ontknopingen van theatervoorstellingen hebben, maar over data-analyse, ofwel big data. In het vorige artikel Big data: no big deal! Datamining ligt binnen handbereik van de meeste bedrijven (De Credit Manager, nummer 1, 2014) is uitgelegd wat Bayesiaanse kansrekening is. De kern van Bayes’ stelling is dat kansen veranderen als we meer dingen te weten komen. We gaven het voorbeeld van de vergeten sporttas: heeft iemand van het dames- of herenteam de tas achtergelaten? Zonder verdere informatie moeten we aannemen dat er een waarschijnlijkheid is van 50% dat het om een man gaat en 50% om een vrouw. Echter, zo was het voorbeeld, als we weten dat de eigenaar van de tas lang haar heeft, van ‘Hello Kitty’ houdt en Chanel No5 gebruikt, dan veranderen deze 50%/50% kansen radicaal. Het wordt dan opeens waarschijnlijk dat het om een vrouw gaat, met misschien wel 90% waarschijnlijkheid.
Doel van dit soort gegevensanalyses is te komen tot een model dat iets over de toekomst zegt. Bij kredietbeheer gaat het niet om eigenaren van verloren sporttassen, maar willen we grip krijgen op het risico van wanbetaling. Meer concreet, we willen voor het accepteren van een opdracht inschatten hoe waarschijnlijk het is dat we met een wanbetaler van doen hebben. De kredietacceptatie kunnen we ondersteunen met een beslismodel gebaseerd op data-analyse. Het bestuderen van de data en het maken van het model kan natuurlijk met de hand plaatsvinden. Dit heeft als voordeel dat men nauw bij het proces betrokken blijft en precies begrijpt hoe het model werkt. Voor grotere gegevensbestanden verdient computeranalyse de voorkeur. Hiermee komen we in het domein van het machinaal leren, ofwel machine learning.

Machine learning
Bij machine learning analyseert de computer grote gegevensbestanden en probeert hier patronen en structuren in te ontdekken die de grondslag vormen voor het beslismodel. Het is van belang te benadrukken dat het model als het ware voortkomt uit de data: andere datasets en veranderingen in de datasamenstelling leiden tot een ander of aangepast model. Laten we eens kijken hoe een computer omgaat met patroonherkenning en op welke wijze we een model kunnen aanmaken. Zoals zo vaak werkt een simpel voorbeeld verhelderend.

Voorbeeld
Stel: we hebben een kleine databank met daarin dossiers van tien personen. We weten de lengte, de schoenmaat en het geslacht van deze personen. Het doel dat we ons stellen, is het maken van een beslismodel dat het geslacht voorspelt.
Lengte    Schoenmaat    Geslacht
Persoon 1    1.82    43    Man
Persoon 2    1.83    42    Man
Persoon 3    1.85    43    Man
Persoon 4    1.91    44    Man
Persoon 5    1.95    45    Man
Persoon 6    1.68    37    Vrouw
Persoon 7    1.72    38    Vrouw
Persoon 8    1.80    39    Vrouw
Persoon 9    1.78    40    Vrouw
Persoon 10    1.79    40    Vrouw

De analyse geschiedt door de data te plaatsen op een assenstelsel met twee dimensies: lengte en schoenmaat.

We zien meteen dat er twee clusters of groepen zijn: de mannen zijn langer en hebben grotere schoenmaten. De schijnbaar willekeurige data vertonen een duidelijk patroon. Van deze structuur maken we gebruik om een model te maken. Een simpel beslismodel zou kunnen bestaan uit het trekken van een lijn tussen de punten (lengte 1.60 m, schoenmaat 45) en (lengte 2.00 m, schoenmaat 37).

De lijn scheidt de beide clusters en vormt de kern van het model. Krijgen we nu de lengte en schoenmaat te horen van een onbekend persoon, dan plotten we deze gegevens op ons assenstelsel en trekken een conclusie: valt het punt ten noordoosten van de scheidslijn, dan voorspelt het model dat het om een man gaat, ten zuidwesten van de lijn is het een vrouw. Een variant op dit beslismodel is dat we de coördinaten berekenen van de gemiddelde man en vrouw. Beide punten staan weergegeven in bovenstaande afbeelding. Komen er nieuwe data binnen, dan berekenen we de afstand van het nieuwe punt tot de gemiddelde punten voor man en vrouw. De kortste berekende afstand bepaalt vervolgens het geslacht.
Bij data-interpretatie moeten we bedenken dat variabelen zich op een continue schaal bevinden, zoals gewicht en schoenmaat, waarbij we deze gegevens vervolgens omzetten in een uitkomst met maar twee mogelijke antwoorden: man of vrouw. Uitkomsten van het karakter ja/nee, links/rechts, ervoor/erna heten ‘binaire uitkomsten’ omdat ze een tweedeling geven. Hiermee leggen we een harde structuur, die geen ruimte laat voor twijfel, op aan data die eigenlijk een flexibel karakter hebben. Als we teruggaan naar onze grafiek met de assen lengte en schoenmaat, is het intuïtief duidelijk dat de interpretatie van punten dichtbij de scheidslijn meer onzekerheid met zich meebrengt dan punten verder weg. Zo is een persoon met lengte 1,91 m en schoenmaat 39 volgens ons model man, maar omdat dit punt zowat op de scheidslijn ligt, is er een reële kans dat het een vrouw is. We kunnen beter stellen: 55% kans op man en 45% op vrouw, waarmee de onzekerheid terugkomt in de harde tweedeling. Punten ver van de scheidslijn hebben dan percentages als bijvoorbeeld 99% man, 1% vrouw, wat meer zekerheid suggereert.

Terug naar kredietbeheer
Bij kredietbeheer zijn we op zoek naar de clusters wanbetalers / geen wanbetalers. Deze clusters zijn niet even groot. Waarschijnlijk betalen de meeste mensen wel terug en vormen de wanbetalers een kleine groep. De knip ligt dus niet bij 50% / 50% maar bijvoorbeeld bij 95% / 5%. Dit betekent dat er 5% kans is op wanbetaling als iemand binnenkomt van wie we niets weten. Met behulp van datamining en ons Baysiaans beslismodel kunnen we meer duidelijkheid geven of iemand wel of niet gaat terugbetalen en zou deze knip bijvoorbeeld komen te liggen op 99% / 1%. De winst voor de ondernemer is duidelijk. We zetten het model in om beslissingen te ondersteunen: voor de hele hoge of lage percentages kunnen meteen beslissingen worden genomen, terwijl dossiers met percentages dicht bij de knip wellicht om verdere bestudering of aanvullende actie vragen, wellicht met menselijke tussenkomst. In dit voorbeeld zien we de regel van Bayes aan het werk: kansen veranderen naarmate meer gegevens beschikbaar zijn.
Computers zijn goed in het analyseren van grote databestanden, patroonherkenning en het omzetten van de gevonden structuur naar een model. Het is belangrijk nogmaals te benadrukken dat bij machinaal leren het model als het ware wordt gegenereerd door de data, wat gebeurt zonder menselijke tussenkomst. Het eerder genoemde voorbeeld is simpel en makkelijk in een tweedimensionale figuur te vatten. Echter, niets staat het gebruik van meerdere dimensies van variabelen in de weg. Hoewel de principes hetzelfde blijven, wordt het model complexer. Voor een computer is dit uiteraard geen probleem.

Eenvoudige softwaretools
In de alledaagse praktijk kan deze data-analyse worden gedaan met een uitgebreid palet aan softwareoplossingen. Meestal gaat het om dure systemen die veel specialistische kennis vragen om te bedienen, wat voor kleine bedrijven vaak een hindernis is. Minder bekend is dat ook eenvoudige gereedschappen zoals vertrouwde spreadsheetprogramma’s als MS Excel ons een eind op weg kunnen helpen en dat een open-sourceprogramma als Weka (http://www.cs.waikato.ac.nz/ml/weka/) uitgebreide datamining- en modelleeropties kent zonder prijskaartje. Toegegeven, het zal enige inspanning kosten om hiermee aan de slag te gaan, maar ook kleine bedrijven met dito bestedingsruimte kunnen aan de slag met datamining en machine learning.

Machine learning in de praktijk
Hoe werkt dit nu in de praktijk? Stel: een bedrijf heeft zo’n 30.000 gegevens beschikbaar van klanten aan wie geleverd is met betalingsgegevens. Het gaat hier om historische data waarvan we de uitkomst wanbetaler / geen wanbetaler kennen. Laten we aannemen dat er in vijf procent van de gevallen sprake is van betalingsproblemen. We splitsen de data willekeurig in twee groepen: 15.000 dossiers gebruiken we om ons model te bouwen en 15.000 als controlebestand om het model te testen. In iedere groep zit vijf procent, ofwel ongeveer 750, wanbetalers. Van iedere klant kennen we een aantal variabelen: geslacht, leeftijd, duur klantrelatie, aantal leveringen, gemiddelde prijs levering, woonplaats, productvoorkeur enzovoorts. Laten we aannemen dat het om een twintigtal variabelen gaat. De machine learning tool zal nu de 15.000 dossiers analyseren en de relatie proberen te vinden tussen de variabelen en de uitspraak wanbetaler / geen wanbetaler. Het kan zijn dat van de twintig kenmerken vijftien niets opleveren: met andere woorden er is geen structuur in deze data te ontdekken. De overige vijf kenmerken hebben wel een relatie tot het betalingsgedrag. Laten we aannemen dat dit geldt voor bijvoorbeeld leeftijd, woonplaats, aantal leveringen, prijs levering en productvoorkeur. We kunnen nu een model genereren dat wanbetaling voorspelt aan de hand van deze kenmerken. Op basis van historische data hebben we een beslismodel laten creëren waarmee we voor de toekomst beslissingen kunnen nemen.
Werkt dit ook? De effectiviteit en betrouwbaarheid van het model is af te lezen aan tal van ratio’s die door machine learning pakketten worden gegenereerd. Het makkelijkste is echter om het model te testen op de tweede dataset van 15.000 gegevens die we voor dit doel opzij hadden gezet. Ook in deze tweede set bevinden zich 750 wanbetalers. De hamvraag is: vinden we deze 750 wanbetalers terug met het model? Een honderd procent score is misschien wat al te ambitieus, maar een goed deel moet toch worden gevonden. Een andere parameter is om te kijken naar het aantal dossiers dat ten onrechte als wanbetalers is geïdentificeerd. Het spreekt vanzelf dat het model niet te veel van deze zogeheten false positives mag leveren. Overigens is het zo dat het accepteren van een probleemklant of -order voor een bedrijf doorgaans ernstiger is dan het onterecht afwijzen van een nieuwe klant of order. Uitgaande van een winstmarge van tien procent heeft het onterecht afwijzen van tien orders evenveel gewicht als het accepteren van één verkeerde order.

Tot besluit
Dit korte artikel over de mogelijkheden van machine learning sluiten we af met een aanmoediging om deze technieken te gaan toepassen in het eigen bedrijf. Veel ondernemingen bezitten een schat aan gegevens, klaar om ontgonnen te worden. Misschien is de deus ex machina wel de onverwachte groeibriljant aan modellen die met datamining aan het licht kan worden gebracht. En is het wijs om niet op het ingrijpen van een godheid te wachten, maar zelf de hand aan de ploeg te slaan.

Auteur: André Koch (andre@stachanov.com) is partner van de Amsterdamse advies- en ingenieursfirma Stachanov Solutions & Services bv in Amsterdam en is senior lecturer in bank financial management en asset management aan Nyenrode, The Netherlands Business School. Voor Oracle University geeft hij cursussen in het modelleren van risico’s.
Bron: De Credit Manager, 2014, nummer 2.

 

Shares