Direkt zum Inhalt
INSTITUT FÜR MEDIZINISCHE INFORMATIK, STATISTIK UND EPIDEMIOLOGIE

A Model for a Data Dictionary Supporting Multiple Definitions, Views and Contexts

Abstract

Auf dem Gebiet der Klinischen Studien sind präzise Begriffsdefinitionen äußerst wichtig, um eine objektive Datenerfassung und -auswertung zu gewährleisten. Zudem ermöglichen sie externen Experten die Forschungsergebnisse korrekt zu interpretieren und anzuwenden. Allerdings weisen viele Klinische Studien Defizite in diesem Punkt auf: Definitionen sind oft ungenau oder werden implizit verwendet. Außerdem sind Begriffe oft uneinheitlich definiert, obwohl standardisierte Definitionen im Hinblick auf einen weitreichenderen Austausch von Ergebnissen wünschenswert sind. Vor diesem Hintergrund entstand die Idee des Data Dictionary, dessen Ziel zunächst darin besteht, die Definitionsalternativen von Begriffen zu sammeln und Klinischen Studien zur Verfügung zu stellen. Zusätzlich soll die Analyse der Definitionen in Bezug auf ihre Gemeinsamkeiten und Unterschiede sowie deren Harmonisierung unterstützt werden. Standardisierte Begriffsdefinitionen werden jedoch nicht erzwungen, da die Unterschiede in Definitionen inhaltlich gerechtfertigt sein können, z.B. aufgrund der Verwendung in unterschiedlichen Fachgebieten, durch studienspezifische Bedingungen oder verschiedene Expertensichten. In der vorliegenden Arbeit wird ein Modell für das Data Dictionary entwickelt. Das entwickelte Modell folgt dem aus der Terminologie bekannten konzept-basierten Ansatz und erweitert diesen um die Möglichkeit der Repräsentation alternativer Definitionen. Insbesondere wird hierbei angestrebt, die Unterschiede in den Definitionen möglichst genau zu explizieren, um zwischen inhaltlich verschiedenen Definitionsalternativen (z.B. sich wider-sprechenden Expertenmeinungen) und konsistenten Varianten einer inhaltlichen Definition (z.B. verschiedene Sichten, Übersetzungen in verschiedene Sprachen) unterscheiden zu können. Mehrere Modellelemente widmen sich zudem der Explizierung von kontextuellen Informationen (z.B. der Gültigkeit innerhalb von Organisationen oder der Domäne zu der ein Konzept gehört), um die Auswahl und Wiederverwendung von Definitionen zu unterstützen. Diese Informationen erlauben verschiedene Sichten auf die Inhalte des Data Dictionary. Sichten werden dabei als kohärente Teilmengen des Data Dictionary betrachtet, die nur diejenigen Inhalte umfassen, die als relevant im ausgewählten Kontext spezifiziert sind.
In the field of clinical trials, precise definitions of terms are crucial for guaranteeing objective and unbiased data collection and processing as well as ensuring that external experts are able to comprehend the research and interpret its results correctly. However, many clinical trials are unfortunately still lacking in this respect. Definitions are often imprecise or not even explicitly stated. Further, although standardized definitions of commonly used terms across clinical trials are desirable for reasons of facilitating the broader exchange and adoption of results, terms are currently defined differently in different trials. Against this background the idea of the Data Dictionary was conceived. First of all, its goal is to represent the multiple alternative definitions of terms in use such that clinical trials can refer to them. Further, the analysis of definitions with regard to their similarities and differences and for purposes of their harmonization is to be supported. However, the latter should not be enforced for differences in definitions which may be justified due to different domain- or trial-specific conditions or different expert views. In the present thesis a model for the Data Dictionary is developed. The model developed adopts the concept-centered approach considered best practice in terminologies and adjusts it in order to accommodate alternative definitions. In particular, it strives to make explicit the kind of differences in definitions as far as possible, in order to distinguish between substantively different definitions (like contradictory expert opinions) and consistent variants of the same substantive definition (e.g. different points of view or translations into different languages). In order to support the selection and reuse of definitions, as well as their comparison for harmonization, several model elements are devoted to the explication of contextual information (e.g. the organizational scope of a definition or the domain a concept belongs to). This information allows for several views on the content of the Data Dictionary. Views are coherent subsets of the content including only the content which is specified as relevant in the selected context.