Usecase Global Cargo Care
Challenge
Dagelijks krijgt Global Cargo Care grote hoeveelheden e-mails binnen van in- en uitgaande schepen. Deze mails bevatten bijvoorbeeld informatie betreft de vertrekhaven, aankomsthaven, aankomsttijd, lading en gewicht van de schepen. De mails zijn vrij geschreven door de afzender, waardoor een vast format ontbreekt en ze vele afkortingen en/of typfouten kunnen bevatten.
Momenteel is een volledige afdeling van mensen nodig om deze mails te ontleden en de belangrijke velden handmatig te documenteren in de database. Naast dat dit geen leuk werk is, resulteert het ook in hoge kosten en belemmert het de schaalbaarheid van het systeem. Daarnaast neemt in het algemeen de focus van werknemers af over tijd, waardoor mogelijk foutieve data wordt ingevoerd. Dit kan dan weer serieus problematische gevolgen hebben in de praktijk. Aan team Datacation is gevraagd om een Natural Language Processing (NLP) module te ontwikkelen om dit werk te automatiseren.
Proces
De oplossing bevat zowel aspecten van data engineering als data science, wat het een ideale opdracht maakt voor Datacation.
Allereerst zijn we gestart met het data engineering deel. In deze fase wordt gekeken hoe de data het beste kan stromen, welke transformaties van de data gedaan dienen te worden én waar het vervolgens wordt opgeslagen. Het proces dient een grote hoeveelheid mails aan te kunnen, waardoor robuustheid van groot belang was.
Nadat de eerste fase is afgerond, zijn we gestart met het ontwikkelen van het algoritme. We hebben het model zelflerend gemaakt. Dit wil zeggen dat het periodiek data onttrekt uit de database en een nieuw model traint. Voor dit laatste is ook een speciaal dashboard ontwikkeld, wat de prestatie van het model weergeeft en het manueel starten van hertrainen vergemakkelijkt.
Naast de ontwikkeling van het algoritme, heeft Datacation ook de integratie opgepakt. Hier wordt het ontwikkelde machine learning model opgenomen in het bestaande systeem van Global Cargo Care, zodat het daadwerkelijk gebruikt kan worden in de praktijk.
Oplossing
Het door ons gecreëerde model heeft een accuraatheid van 91.3% weten te behalen. Over tijd kan deze accuraatheid nog meer stijgen, omdat er steeds meer data beschikbaar komt waarvan het model dan weer kan leren. We zijn er echter van verzekerd dat we al een grote verbeterslag gemaakt hebben ten opzichte van het manueel verwerken van de e-mails.
Door de constante ontwikkelingen op het gebied van Natural Language Processing (NLP) komen er nieuwe architecturen beschikbaar. Samen met Global Cargo Care zullen we deze nieuwe mogelijkheden blijven verkennen, om zo de prestatie van het model nogmaals naar een hoger level te trekken.