Im Zuge der Wissensmanagemententwicklung in einer obersten Landesbehörde entstand ein Werkzeug "DokumentFinder" zum alternativen Finden von gemeinsam nutzbaren Dokumenten als Ergänzung zur klassischen Suchmaschine. Insbesondere bei Datenbeständen, in denen oft auch Dokumente gelöscht werden, hat der hier eingeschlagene Weg Vorteile. Das Werkzeug bietet sich nun auch an, statistische und linguistische Untersuchungen an dem vorhandenen Dokumentenbestand vorzunehmen.
Voraussetzung für die Nutzung ist die Erreichbarkeit eines Dokumentenbestandes in Form von Word und PDF Dokumenten in einem Dateisystem. Das kann die lokale Festplatte eines Servers oder Desktop-Rechners ebenso sein wie gemeinsam genutzte LAN-Laufwerke.
Im Zuge der Entwicklung von DokumentFinder ergibt sich nun die Möglichkeit, für Dokumentenbestände
Nach einer Entwicklungszeit von zwei Jahren ab 2004 befindet sich DokumentFinder nun seit 2006 in Produktionseinsatz
Neben der Weiterentwicklung als Findewerkzeug sollen nun Mithilfe des DokumentFinders auch größere Datenbestände in Ihren linguistischen Eigenschaften untersucht werden
DokumentenFinder durchforstet einen vorgegebenen Netzwerk-Pfad und extrahiert aus den gefundenen Dokumenten alle Substantive. Dateien, Speicherort, Stichworte und Verknüpfung zwischen Dateien und Stichworten werden in einer Datenbak abgelegt. Die Nutzeroberfläche ist webbasiert und ermölglicht es, zwischen den Stichworten zu navigieren und damit Dokumente zu finden.
In Dokumentenbeständen mit mehreren Tausend Dateien ist ein Problem, Duplikate ausfindig zu machen. In einem ersten Schritt wurde untersucht, wie groß die Redundanz wirklich ist. Beispielsweise wurden in einem Subdatenbestand von insgesamt 7625 Dokumenten 5300 Unikate gefunden.
In einem Bestand von knapp 22.000 Dokumenten werden knapp 410.000 Substantive identifiziert. Eine Reduktion auf einen Subdatenbestand von 5300 Dateien, also auf ein Viertel, reduzierd die Substantivmenge auf etwas mehr als die Hälfte mit 225.000 Stichworten
Folgende nächste Schritte sind geplant: