Kennisportal
Kennisportal is een kennisplatform met een focus op de brede doelgroep Business en IT.

Hoe machine learning het handmatig toekennen van metadata kan vervangen

Zeker in grote organisaties waar in de loop der jaren vele duizenden of zelfs miljoenen documenten zijn aangemaakt en verzameld, is het van vitaal belang dat deze goed terug te vinden zijn. Vaak staan de documenten in bijvoorbeeld een onduidelijke mappenstructuur. Ook is deze structuur vooral logisch voor degene die het heeft ingericht, maar hoeft dat niet zo te zijn voor de honderden mensen die hier verder dagelijks mee werken. “In dat geval is het verstandig om metadata toe te kennen aan documenten zodat ze goed gevonden worden. Tegenwoordig kan dit ook automatisch aan de hand van machine learning”, vertelt Lourens Siderius, Cloud Transformatie Coach bij ETTU.

Het voordeel van het automatisch toekennen van metadata

Het toekennen van de juiste metadata aan documenten is voor veel mensen een handeling die vergeten wordt of waar de waarde niet genoeg van wordt ingezien. “Men is klaar met een document, slaat deze op in een map waarvan gedacht wordt dat deze erin thuishoort en kijkt er nooit meer naar om. Zo raakt het document niet alleen ondergesneeuwd in alle andere honderden documenten genaamd ‘Projectaanpak Klant X’, maar is de kans groot dat iemand anders het ook niet kan vinden. Op deze manier gaat er kennis verloren en is de kans groot dan een collega opnieuw een soortgelijk document gaat schrijven. Dit is zonde van alle tijd en energie”, aldus Lourens. “Stel je eens voor dat alle bestaande en nieuwe documenten automatisch de juiste metadata krijgen. Zo worden zoekresultaten veel relevanter en is de kans groter dat de juiste informatie snel gevonden wordt.”

Metadata en machine learning: de drie voordelen

Het automatisch toekennen van metadata zorgt voor drie grote voordelen bij organisaties. Lourens licht toe: “De eerste is al genoemd: het wordt veel gemakkelijker om documenten terug te vinden. Wanneer iemand in het zoekveld de juiste, en meest logische, combinatie van metaomschrijvingen intypt, zal er een kleine hoeveelheid documenten getoond worden waarvan de relevantie erg hoog is. Het tweede voordeel is dat het zo mogelijk wordt om rapportages te maken op basis van de metadata. Weten hoeveel offertes er in een bepaalde periode zijn gemaakt, wordt nu duidelijk via één druk op de knop. Het laatste grote voordeel is dat er ook beveiligingsmaatregelen genomen kunnen worden. Bijvoorbeeld: wanneer documenten de meta-tag ‘Contract’ hebben, mogen deze nooit gedeeld worden buiten de organisatie. Bovendien wordt het zo gemakkelijk voor archivering om de bewaartermijn van documenten in de gaten te houden. Meer weten over de beveiligingsmogelijkheden die in Office 365 zitten? Lees dan de blog van Andries over security en compliance.

Ook voor gescande en niet-tekstuele documenten herkent AI content

Het is goed mogelijk dat veel content in een organisatie gescand is. Getekende offertes, contracten en foto’s kunnen een substantieel deel van de totale set aan documenten zijn. Tegenwoordig is AI zo ver ontwikkeld dat metadata automatisch toegevoegd kan worden aan gescande documenten. Lourens schetst een voorbeeld: “AI ziet in een document dat de eerste twee alinea’s informatie bevatten over de organisatie zelf en over een andere organisatie, dat er een aantal alinea’s zijn waarin bepalingen zijn opgesteld en dat er onderaan elke pagina parafen plus op de laatste pagina handtekeningen gezet zijn. Op basis van deze informatie kan AI herkennen dat het om een contract gaat tussen partij A en partij B, welke gaat over project X en is getekend op een bepaalde datum. Deze informatie wordt allemaal opgeslagen als metadata. Hierna kun je ervoor kiezen om workflows toe te voegen of bepaalde restricties met betrekking tot het delen binnen of buiten de organisatie.”

Ook wanneer het gaat om afbeeldingen, kunnen deze ‘gelezen’ worden en omgezet worden naar tekstuele inhoud. Zo worden bijvoorbeeld verschillende soorten apparaten of machines herkend en krijgen automatisch de juiste metadata.

Ook in hybride situaties brengt machine learning uitkomst

“Het is niet nodig om volledig in de cloud te werken om gebruik te maken van machine learning”, vertelt Lourens. “Ook wanneer documenten lokaal staan, kan men gebruik maken van machine learning om metadata automatisch toe te kennen aan bestaande en nieuwe documenten.” In dat geval wordt er een koppeling gemaakt met de Azure cloud, worden de documenten in de cloud gelezen en krijgen deze vervolgens de metadata toegekend. “Op deze manier kan vrijwel iedereen gebruik maken van deze krachtige technologie, zonder eerst de hele bedrijfsvoering over te zetten naar de cloud. Gemakkelijk, laagdrempelig en gegarandeerd kostenbesparend.”

Terugvinden documenten

Het is ook mogelijk om de metadata van de gevonden documenten op te slaan in Azure. Dan is het mogelijk om door middel van Azure Search een portaal in te richten waar gebruikers kunnen zoeken naar de gewenste informatie die afkomstig is van de lokale omgeving. Hierdoor creëer je een enterprise search omgeving waar alle data van de organisatie in terug te vinden zonder dat gebruikers deze data eerst hebben hoeven kwalificeren.

De business case voor deze technologie is snel gemaakt

“Het voordeel van dit soort cognitieve services uit Azure is dat ze werken op basis van pay as you use. In eerste instantie starten we een project om de bestaande documenten te voorzien van metadata op basis van de ingegeven richtlijnen. Vervolgens blijft de technologie bestaan voor de nieuwe documenten, zodat alle documenten volgens dezelfde regels metadata krijgen”, aldus Lourens.

“Sommige organisaties beschikken over dusdanig veel informatie dat zij hier een aparte afdeling voor hebben. Deze afdeling helpt de rest van de organisatie met het vinden van de juiste informatie. In de huidige tijd met alle technologische mogelijkheden kan dit veel efficiënter. Dit kan een organisatie veel kosten besparen. Daar bovenop komt nog het feit dat elke werknemer gemiddeld 22% van zijn of haar tijd besteedt aan het zoeken naar informatie of het reproduceren van bestaande informatie. Dankzij het automatisch toekennen van metadata zal dit percentage gegarandeerd zakken, waardoor mensen effectiever en productiever gaan werken.”

Natuurlijk zijn er wel kosten voor het aanzetten van Azure cognitive services. “Het automatisch toekennen van metadata aan documenten door middel van machine learning kost €6.000 voor 20 miljoen documenten. Om zo veel documenten door mensenhanden te voorzien van metadata kost een veelvoud hiervan en is oprecht zonde van de mankracht. Bovendien kunnen deze mensen nu waarde toevoegen aan de bedrijfsvoering, waardoor de business case zichzelf schrijft”, aldus Lourens.

Een kleine handmatige investering zorgt voor veel werkplezier in de toekomst

“Uiteraard moet AI de regels en soorten documenten leren kennen voordat metadata automatisch toegekend kan worden”, legt Lourens uit. “Elke organisatie is anders en heeft daarom ook andere soorten documenten in de verschillende databases, fileshares en Exchange staan. Zelfs wanneer het gaat om offertes of contracten, die in elke organisatie te vinden zijn, moet de AI leren hoe deze er precies in de organisatie uitzien. Daarom starten we deze projecten altijd met duidelijke richtlijnen over hoe documenten zijn opgebouwd, welke informatie op welke plek is opgeslagen en welke metadata van belang is. Vervolgens doen we een test door een aantal documenten door AI te laten gaan en handmatig te controleren. Zo weten we zeker dat we kunnen vertrouwen op de technologie en kan elk document in de organisatie met een gerust hart automatisch metadata toegewezen krijgen.”