How important is metadata in engineering today?

The Base Services measure S-3 is all about subject and application-specific metadata services and their integration into engineering workflows. But what do advanced tools offer to engineers? How do ontologies help? In 2022, we turn the spotlight on these questions in a series of workshops.

In the Base Services measure S-3 „Metadata and Terminology Services”, the Karlsruhe Institute of Technology, Leibniz information centre for science and technology University Library, the Rheinisch-Westfälische Technische Hochschule Aachen, and the Technische Universität Darmstadt are working collaboratively on a meta data service offer. This offer will facilitate the use of subject and application-specific standardised metadata and their integration into engineering workflows, and provides services for generation, sharing and reuse of application specific metadata profiles as well as a terminology service to enable researchers and infrastructure providers to access, curate, and update terminologies.

Essentially, the S-3 portfolio will provide web-based software services to support the following requirements:

  • Flexible application-specific metadata schemas via selection of suitable elements from controlled terminologies (Metadata Profile Service)
  • Provision of a service, that enables access, curation, and subscription to domain specific terminologies (Terminology Service)
  • Uniform access to multiple metadata repositories through a single API (Metadata Hub)

In addition to these services, we are working on the metadata4ing ontology, to describe research processes and research results in engineering.

After a year project runtime, we now have achieved the availability of preliminary demonstrators and minimal viable products for all three envisioned services and the metadat4ing ontology.

To learn, inspire and discuss the application of these services into engineering research workflows, we are about to prepare a series of workshops. This will help us to shape the future development of our service offer. At the same time, we want to raise interest in the community for the opportunities to improve their research data management through richer metadata by showing use-cases and demands from today’s engineering research.

However, because all of our services base on ontologies, we would like to shortly discuss what ontologies are and why we think that they are helpful to support us in addressing the challenges along the metadata management in the scope of our project.

In a nutshell, in order to broadly define what we are working with: ontologies in information science have strongly increased in spread and recognition from the year 2000 onwards. In this year Tim Berners-Lee coined the vision of the “Semantic Web” or the web of machine readable, semantically described resources, as the successor of the commonly known web of documents. Part of his vision was to formularise machine readable semantics in such a way that they can be understood and therefore processed and exchanged by machines.

Put simply, an ontology is the most precise form of language to describe concepts and their relations between each other available to us today. An ontology in terms of the Semantic Web provides such a precise description even machines can interpret and reason with them. All this information is coded in a strongly formal and W3C-standardised specification called ontology languages. Essentially, these ontology languages allow the machine readable serialisation of definitions of real-world concepts and their interrelations.

Photo by Eleventh Wave on Unsplash

As such, ontologies are way more expressive, optimized for machine procession compared to plain text metadata. Currently application of ontologies, or more broadly spoken controlled terminologies, in engineering is not yet widely spread. In part due to missing a comprehensive toolset that allows a full processing and application of controlled terminologies.

However, a key point in the application of controlled terminologies is that they allow to establish a common understanding of “circumstances of the real world”, by applying a shared set of terms and definitions that could be understand by a designated community and beyond. The state of the science and technology shows that some use cases and prototypes exist that demonstrates this added value and its integration into technical workflows. However, creating and establishing full ontologies still is lengthy and costly effort, which shows its added value only if a large community works on their establishment and consolidation with further ontologies.

In the long run, using such an agreed and shared ontology or family of ontologies in engineering for metadata management will help not only researchers to make their data more transparent, hence reproducible, and hence reusable but also allows for new applications in machine-driven technologies. S-3 is one of further efforts to bring this added value into the important task of research data management.

F. Engel, M. Fuhrmans, M. Grönewald, D. Iglezakis

German translation

In der NFDI4Ing-Maßnahme S-3 “Metadaten- und Terminologie-Services” arbeiten das Karlsruher Institut für Technologie, die Technische Universität Darmstadt, die Rheinisch-Westfälische Technische Hochschule Aachen und die Universitätsbibliothek des Leibniz-Informationszentrums für Technik und Naturwissenschaften gemeinsam an einem Metadaten-Serviceangebot. Dieses Angebot umfasst eine Menge an webbasierte Softwarediensten für die Nutzung von fach- und anwendungsspezifischen standardisierten Metadaten und deren Integration in ingenieurwissenschaftliche Arbeitsabläufe. Generell sind diese Softwaredienste vorgesehen, um das Erstellen, Teilen und Nachnutzen von anwendungsspezifischen Metadatenprofilen zu ermöglichen. In diesem Zuge wird auch an einem Terminologie-Service gearbeitet, der es Forschern und Infrastrukturanbietern ermöglicht, auf bestehende Terminologien zuzugreifen, diese zu pflegen und zu aktualisieren.

Im Wesentlichen besteht das S-3-Portfolio damit aus drei Softwarediensten, die zur Unterstützung der folgenden Anforderungen bereitstehen:

  • Erstellen und Anwenden von flexiblen anwendungsspezifischen Metadatenschemata mittels Auswahl geeigneter Elemente aus kontrollierten Terminologien (Metadata Profile Service)
  • Bereitstellung eines Dienstes, der den Zugriff, die Kuratierung und das Abonnement von domänenspezifischen Terminologien ermöglicht (Terminology Service)
  • Einheitlicher Zugang zu mehreren Metadaten-Repositories über eine einzige API (Metadata Hub)

Zusätzlich zu diesen Diensten arbeiten wir an einer Ontologie (metadata4ing-Ontologie), mit dem Ziel Forschungsprozesse und Forschungsergebnisse des Ingenieurswesen formal beschreiben zu können.

Nach einem Jahr Projektlaufzeit haben wir nun erste Demonstratoren für alle drei geplanten Dienste, sowie der Ontologie metadat4ing realisiert. Um die Anwendung dieser Dienste in den tatsächlichen Arbeitsabläufen von Ingenieuren besser zu verstehen, bereiten wir aktuell eine Reihe von Workshops vor. Diese Workshops sollen uns darin unterstützen, die zukünftige Entwicklung unseres Serviceangebots noch besser zu gestalten. Gleichzeitig wollen wir damit auch das Interesse der Ingenieurs-Community am Metadaten Management bzw. der  Forschungsdatenverwaltung wecken und vertiefen. Dies u.a. indem wir Anwendungsfälle und Anforderungen aus der heutigen technischen Forschung aufzeigen.

Alle unsere Dienste beruhen auf der Verarbeitung von Ontologien. Daher möchten wir kurz erörtern, was Ontologien sind und warum wir glauben, dass sie uns bei der Bewältigung der Herausforderungen bei der Verwaltung von Metadaten im Rahmen unseres Projekts unterstützen können.

Ontologien haben in der Informationswissenschaft seit dem Jahr 2000 stark an Verbreitung und Anerkennung gewonnen. In dem Jahr 2000 hat Tim Berners-Lee die Vision des “Semantic Web” oder des Netzes maschinenlesbarer, semantisch beschriebener Ressourcen, als Nachfolger des allgemein bekannten Netzes von Dokumenten geprägt. Teil seiner Vision war es, die Semantik von Inhalten so zu formulieren, dass sie von Maschinen verstanden und somit automatisiert verarbeitet und ausgetauscht werden kann.

Vereinfacht ausgedrückt ist eine Ontologie die präziseste Form einer maschinenlesbaren Sprache zur Beschreibung von Informationseinheiten (im allg. „Konzept“ genannt) und ihrer Beziehung untereinander, die uns heute zur Verfügung steht. All diese Informationen werden in einer streng formalen und vom W3C standardisierten Spezifikation, den sog. Ontologiesprachen, für den Computer kodiert.

Als solches sind Ontologien, im Vergleich zu reinen Textmetadaten damit wesentlich aussagekräftiger und für die maschinelle Verarbeitung optimiert. Derzeit ist die Anwendung von Ontologien oder allgemeiner gesprochen von kontrollierten Terminologien in der Ingenieurs-Community noch nicht weit verbreitet. Das liegt wahrscheinlich daran, dass noch ein umfassender Werkzeugsatz fehlt, welcher die vollständige Verarbeitung und Anwendung von kontrollierten Terminologien ermöglicht.

Photo by Eleventh Wave on Unsplash

Wie dem auch sei, zentraler Punkt bei der Anwendung kontrollierter Terminologien ist, dass sie ein maschinenlesbares, gemeinsames Verständnis der “Gegebenheiten der realen Welt” beschreiben, indem sie einen gemeinsamen Satz von Begriffen und Definitionen verwenden, der von einer festgelegten Community und darüber hinaus verstanden werden kann. Der Stand der Wissenschaft und Technik zeigt, dass einige Anwendungsfälle und Prototypen existieren, die den Mehrwert der Verarbeitung reichhaltiger und allgemein akzeptierter Standards und deren Integration in technische Arbeitsabläufe zeigen.

Die Erstellung umfassender Ontologien ist und bleibt jedoch immer noch eine langwieriger und kostspieliger Prozess, der erst dann seinen Mehrwert zeigt, wenn eine große Gemeinschaft an ihrer Erstellung arbeitet und Schnittstellen für die Konsolidierung mit weiteren Ontologien angeboten werden.

Langfristig wird die Verwendung solcher Ontologien oder Familie von Ontologien auch im Ingenieurswesen für das Metadatenmanagement nicht nur Forschern helfen, ihre Daten transparenter, damit reproduzierbar und damit wiederverwendbar zu machen, sondern auch neue Anwendungen in maschinengesteuerten Technologien ermöglichen.

F. Engel, M. Fuhrmans, M. Grönewald, D. Iglezakis