White paper Legal Intelligence ranking
Maart 2018 – mr. G. Wiggers, dr. T.E. de Greef
Introductie
Na het invoeren van een zoekopdracht toont Legal Intelligence de zoekresultaten in een lijst. Deze resultaten worden gepresenteerd in de volgorde waarvan Legal Intelligence denkt dat deze het beste aansluit bij de behoeften en wensen van de gebruikers. De volgorde waarin resultaten gepresenteerd worden noemen wij de ranking. Deze ranking is opgebouwd uit een vijftal regels wiens score bij elkaar opgeteld wordt en deze white paper legt deze opbouw uit.
Deze white paper gaat specifiek in op de ranking. De zoektechnologie in den brede wordt toegelicht in het white paper getiteld ‘zoektechnologie Legal Intelligence’. Hieronder wel twee zaken over de algemene zoektechnologie die relevant zijn voor de opbouw van de ranking: 1. Wanneer een gebruiker een zoekopdracht invoert in Legal Intelligence, wordt deze geanalyseerd. Het Legal Intelligence systeem kijkt of het synoniemen of onderliggende termen van de zoektermen kent, of dat de zoekopdracht een wetsartikel of vindplaats bevat. 2. Wanneer de zoekopdracht een synoniem (bijv. ‘artikel 6:162 BW’ voor ‘onrechtmatige daad’,) of een thesaurusterm (bijv. ‘eerste kerstdag’ voor ‘officieel erkende feestdag’) bevat, dan zal het systeem ook resultaten weergeven die deze woorden bevatten.
1. Aanwezigheid van zoektermen
Voor elk resultaat geeft het zoeksysteem een score op basis van een aantal factoren:
- Hoe vaak de zoektermen in het document voorkomen, en waar in het document deze staan. Wanneer de zoektermen in de titel of de samenvatting staan, wordt er een hoger gewicht toegekend dan wanneer deze verderop in de tekst staan.
- Indien een zoekopdracht meerdere termen bevat, dan zal een document waarin alle termen meermaals voorkomen, meer gewicht krijgen dan een document waarin één term vaak voorkomt, maar de overige termen slechts eenmaal.
- Bij een gelijk aantal keer voorkomen krijgen de gezochte termen in een korter document een groter gewicht dan in een langer document.
- Woorden die in de gehele database van Legal Intelligence minder voorkomen, worden geacht zeldzamer te zijn en krijgen meer gewicht dan woorden die in veel documenten voorkomen. Dit omdat veel voorkomende woorden vaak algemenere woorden zijn, terwijl de zeldzame woorden de essentie van de zoekopdracht verwoorden.
Noot: de geïnverteerde index
De basis van elke zoektechnologie is een geïnverteerde index¹ wat op een slimme manier een lijst produceert waarin de voorkomens van de stampwoorden in de documenten bijgehouden worden. Deze wordt omgekeerd gesorteerd op basis van de frequentie van woorden, waardoor de minst voorkomende woorden descriptief zijn voor documenten en niet de meest voorkomende woorden.
2. Gewicht op basis van datum
In aanvulling op de standaard score op basis van de aanwezigheid van de zoektermen wordt er ook een gewicht toegekend afhankelijk van de datum² van documenten. Recente documenten worden hierdoor hoger in de ranking getoond dan oudere documenten. Naar verloop van tijd neemt het toegekende gewicht af, zodat dit voor oudere documenten de ranking niet beïnvloedt. Het gewicht en het verloop is verder opgesplitst aan de hand van de bron. Zo is het gewicht voor boeken minder flexibel in vergelijking met documenten van de rechtspraak. Zie ook het figuur hieronder voor een visuele weergave hiervan.
3. Rechtspraak
Aan documenten afkomstig van de Rechtspraak worden op basis van een aantal regels extra gewichten toegekend. Zo wordt extra gewicht toegekend wanneer deze voorzien zijn van een annotatie. Daarnaast wordt er gekeken naar de instantie. Documenten van hogere officiële organen (bijvoorbeeld de Hoge Raad, de Raad van State, het Hof van Justitie EU en het Europees Hof voor de Rechten van de Mens) krijgen een iets hoger gewicht toegekend. Documenten van lagere instanties (bijvoorbeeld de sector kanton van de rechtbank) krijgen iets lager gewicht toegekend. De overige documenten (bijvoorbeeld van gerechtshoven) blijven neutraal.
4. Wetgeving
Voor wetgeving wordt in de ranking meegenomen of deze in werking is. Wanneer wetgeving in werking is, krijgt deze meer gewicht toegekend, dan wanneer deze vervallen is.
Uitzondering
5. Degraderen
Sommige bronnen, zoals bijvoorbeeld Data Juridica, worden actief lager gezet omdat deze ongewenst hoog in de ranking kwamen. Voor Data Juridica bleek dit te komen doordat het systeem de lengte van het document meerekent, terwijl deze bronnen alleen korte verwijzingen bevat. Bronnen als deze krijgen daarom minder gewicht toegekend, om dit effect te neutraliseren.