Motivation und Ziel

Mit der Formalen Begriffsanalyse (FBA) [1] entfalten sich aus Daten zu Gegenständen und deren Merkmalen automatisch Begriffe, unter die diese Gegenstände fallen und die diese Merkmale beinhalten. Die FBA liefert somit anhand erhobener Daten eine Datenstruktur. Aus Daten lassen sich also Metadaten generieren, wie sie für semantische Datenmodelle von Wissensgebieten benötigt werden und die bei der Entwicklung von Ontologien [2] praktisch genutzt werden können.Footnote 1

Anhand eines Beispiels wollen wir ein Verfahren aufzeigen, mit dem das Modellieren weitgehend automatisch, nachvollziehbar und somit objektivierbar und weniger personenabhängig gemacht werden kann. Der Artikel richtet sich vor allem an Informatiker und Linguisten und an Entwickler von Datenmodellen sowie an Wissensingenieure, die an einer Beschreibung von Weltausschnitten – sei es für die Schaffung von Anwendungssystemen, sei es für Ontologien – interessiert sind.Footnote 2

Aufgabe und Ausgangssituation

Es gilt, für ein bestimmtes Wissensgebiet anhand von Aussagen über einige Instanzen ein zugehöriges Ontologieschema zu erstellen. Dies soll auf Basis einer Sammlung elementarer Sätze der Form Subjekt-Prädikat-Objekt (S-P-O) geschehen. Die Elementarsätze liegen in Textform oder als RDF-Tripel [5] vor als sogenannte Statements oder Urteile, also für wahr gehaltene Aussagen. Um sachlogische Zusammenhänge zwischen den Termen der Elementarsätze grafisch darzustellen, wird ein Semantisches Netz genutzt.

Formaler Kontext und Begriffsverband

Nach DIN 2342 ist ein Begriff „eine Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird“. Der Gegenstandsbegriff wird hier sehr weit gefasst. Er umfasst nicht nur materielle und konkrete, sondern beliebige Dinge. Die formale Definition des Begriffs erfolgt in der Formalen Begriffsanalyse. Die FBA ist eine auf der Verbandstheorie basierende Methode zur Strukturierung von Daten mittels formaler Kontexte und deren Begriffsverbänden. Sie wurde in den 1980er-Jahren von Rudolf Wille, Bernhard Ganter und Peter Burmeister eingeführt.

Es folgen einige grundlegende Definitionen.

Gegeben sei eine Menge G, deren Elemente man Gegenstände nennt, und eine Menge M, deren Elemente man Merkmale nennt, sowie eine Relation I ⊆ G × M, die man Inzidenzrelation nennt. Das Tripel K = (G, M, I) wird dann als formaler Kontext bezeichnet. Für einen Gegenstand g ∈ G und ein Merkmal m ∈ M liest man (g, m) ∈ I als: der Gegenstand g hat das Merkmal m. Ein formaler Kontext (G, M, I) lässt sich in Form einer Kreuzchentabelle darstellen: Trifft (g, m) ∈ I zu, so bekommt die Zelle (g, m) der G‑M-Tabelle (Inzidenzmatrix) ein Kreuzchen ☒, andernfalls bleibt sie leer.

Ist K = (G, M, I) ein formaler Kontext und A ⊆ G, so ist die Menge der Merkmale, die alle Gegenstände von A gemeinsam haben

$$A\uparrow \colon =\{m\in M| \forall g\in A\colon (g,m)\in I\}.$$

Ist B ⊆ M, so ist die Menge der Gegenstände, die alle Merkmale von B gemeinsam haben

$$B\downarrow \colon =\{g\in G| \forall m\in B\colon (g,m)\in I\}.$$

Die Operatoren ↑ und ↓ nennt man Ableitungen im Kontext K. Durch sie werden Gegenstandsmengen auf Merkmalsmengen und umgekehrt abgebildet.

Ein Paar (A, B) heißt ein formaler Begriff im formalen Kontext K = (G, M, I), wenn gilt

$$A\subseteq G,B\subseteq M,A\uparrow =B\mathrm{ und }B\downarrow =A.$$

Dabei heißt A der Umfang, B der Inhalt des formalen Begriffs (A, B). Die Menge aller formalen Begriffe des formalen Kontextes K wird mit 𝔅(K) bezeichnet. Auf 𝔅(K) führt man eine Ordnung (reflexive, antisymmetrische, transitive binäre Relation) ein durch

$$\left(A,B\right)\leq \left(A',B'\right)\colon \Leftrightarrow A\subseteq A'\left(\text {und das gilt genau dann},\text{ wenn }B'\subseteq B\right).$$

Die Struktur (𝔅(K), ≤) heißt der Begriffsverband des formalen Kontexts K, da diese Struktur mathematisch stets einen Verband darstellt.

Begriffsverbände können als Liniendiagramme dargestellt werden. Diese zeigen recht anschaulich die Daten in ihrer Struktur.

Verfahren

Mittels Semantischer Netze und der Formalen Begriffsanalyse wollen wir ein Verfahren vorstellen, das ausgehend von Elementarsätzen in einem iterativen Bottom-up-Verfahren zu einem Ontologieschema und einem Entity-Relationship-Diagramm (ERD) [6] führt. Zur Demonstration des Verfahrens erstellen wir exemplarisch und im Kleinen eine Ontologie eines Wissensgebiets. Wir wählen hierzu das Wissensgebiet Kunstgeschichte und verwenden das Beispiel aus dem Wikipedia-Artikel über Ontologie (Informatik) [7] in leicht modifizierter Form. Wir gehen von den Sachverhalten in der Instanzenebene (unterer Teil der Grafik in Abb. 1) aus und werden im Folgenden zeigen, dass das Ontologieschema (oberer Teil der Grafik) daraus prinzipiell ableitbar ist. Diese Ontologie kann u. a. der Erstellung eines Informationssystems für den an Kunstgeschichte interessierten Laien dienen.

Abb. 1
figure 1

Beispielontologie Kunstgeschichte mit Instanzen- und Schemaebene. (Mod. nach: https://de.wikipedia.org/wiki/Ontologie_(Informatik)#/media/Datei:Ontschichten.gif)

Wir gehen von den folgenden 11 Aussagen aus:

  • Santi malt Johannes den Täufer.

  • Galleria dell’Accademia stellt Johannes der Täufer aus.

  • Buonarroti schlägt den David.

  • Galleria dell’Accademia stellt den David aus.

  • Picasso malt den Jungen mit der Pfeife.

  • Picasso ist Kubist.

  • Santi ist Florentiner.

  • Buonarroti ist Florentiner.

  • Johannes der Täufer ist eine Ölzeichnung.

  • Der Junge mit der Pfeife ist eine Ölzeichnung.

  • David ist eine Steinskulptur.

Diese Aussagen entsprechen denjenigen des Wikipedia-Beispiels. Bei den Künstlern haben wir die dort fehlenden Angaben zum Stil ergänzt. Anders als im Wikipedia-Beispiel gibt es hier auf der Instanzenebene nicht die Begriffe, wie z. B. Maler, Bild, Bildhauer, Skulptur und Museum. Wir werden zeigen, dass diese Begriffe erst anhand der Elementarsätze durch die FBA ermittelt resp. konstruiert werden und zur Metaebene, also zum Ontologieschema, gehören.

Es reicht dem Entwickler, wenn er einige Beispiele ermittelt hat und sich ein Bild von der „strukturellen Breite“ der kunstgeschichtlichen Daten gemacht hat. Diese Sammlung von Elementarsätzen stellt die Ausgangsdatensituation dar. Sollten unter den Termen der Elementarsätze Synonyma auftauchen, so werden diese durch den Entwickler bereinigt, indem er einen bevorzugten Term festlegt; Homonyme werden von ihm berücksichtigt, indem er sie aufteilt und sie unterschiedlich benennt.

Basierend auf diesen Elementarsätzen erstellt der Entwickler ein Semantisches Netz. Hierbei wird jeder Elementarsatz der Form S‑P‑O auf ein Knotenpaar und eine gerichtete Kante überführt. Ein Elementarsatz kann auch zu einem Attribut des durch das Subjekt bestimmten Knotens führen. Die Entscheidung ob Strukturierung mittels Kanten oder Knotenattributierung ist in dieser Phase der Ontologieentwicklung meist willkürlich. Beispiel: „Picasso ist Kubist. Soll dieser Elementarsatz als Beziehung pflegtStil zwischen den Knoten Picasso und Kubismus oder als Attribut istKubist von Picasso modelliert werden? Da beide Varianten korrekt sind, modellieren wir sie nach der Devise nicht entweder-oder sondern sowohl-als auch.

Am einfachen Beispiel der Abb. 2 wollen wir demonstrieren, wie man, ausgehend von einer Sammlung von Elementarsätzen, mithilfe von FBA-Methoden zur Darstellung eines Ontologieschemas gelangt. Die Elementarsätze werden in das Semantische Netz SN1 überführt. Dessen Knoten, Knotenattribute und Kanten werden im Schritt 1 als formale Kontexte der Knoten KV und der Kanten KE in zwei Tabellen übertragen. Aus diesen Daten der Instanzenebene werden im Schritt 2 zwei Liniendiagramme mit den durch die FBA ermittelten Begriffen generiert, die der Schemaebene zuzurechnen sind. Sie werden im Schritt 3 in das Semantische Netz SN2 der Klassen überführt. Das Ontologieschema SN2 wird im Rahmen der Qualitätssicherung überprüft, was im Schritt 4 zu einer Erweiterung und Korrektur der Elementarsätze und somit des Semantischen Netzes SN1 der Instanzen führen kann. In diesem Fall erfolgen die Schritte 1–4 zyklisch. Unser iteratives Bottom-up-Verfahren endet, sobald das Ontologieschema alle Kriterien der Qualitätsprüfung erfüllt. Dann kann im Schritt 5 aus SN2 das ERD abgeleitet werden, das die Grundlage für ein Datenbankschema zur Erstellung der Datenbasis für die Ontologie ist.

Abb. 2
figure 2

Semantisches Netz SN1

Das Vorgehen aus den genannten fünf Schritten ist in Abb. 3 dargestellt.

Abb. 3
figure 3

Leitfaden zur Erstellung des Ontologieschemas

Schritt 1: Erstellung der formalen Kontexte zum Semantischen Netz der Instanzen

Zum vorgegebenen SN1 der Abb. 2 bilden wir die Kreuzchentabelle des Knotenkontexts KV, wobei die Knoten die Gegenstände sind. Merkmale sind die Knotenattribute sowie die Beziehungen, an denen ein Knoten in einer bestimmten Rolle – als Subjekt oder als Objekt – beteiligt ist – zu anderen Knoten wie auch ggf. zu sich selbst (Abb. 4).

Abb. 4
figure 4

Der Knotenkontext KV

Hiernach bilden wir zum vorgegebenen SN1 der Abb. 2 die Kreuzchentabelle des Kantenkontexts KE,Footnote 3 wobei die gerichteten Kanten in beide Richtungen die Gegenstände und die Beziehungstypen die Merkmale sind. Die inverse Richtung eines Beziehungstyps wird durch ein nachgestelltes −1 gekennzeichnet (Abb. 5).

Abb. 5
figure 5

Der Kantenkontext KE

Schritt 2: Erstellung der Begriffsverbände zu den formalen Kontexten

Mit einem bewährten FBA-Tool [10] erzeugen wir aus dem Knotenkontext KV das Liniendiagramm des zugehörigen Begriffsverbands 𝔅(KV) – siehe Abb. 6. Die Kreise im Liniendiagramm repräsentieren die Begriffe als Paare von Gegenstands- und Merkmalsmengen. Die Gegenstandsmenge eines Begriffs finden wir anhand der Gegenstandsnamen, die unter all den Kreisen stehen, die ausgehend von dem zum Begriff gehörenden Kreis durch einen absteigenden Streckenzug erreichbar sind. Entsprechend finden wir die Merkmalsmenge eines Begriffs durch die über den Kreisen stehenden Merkmalsnamen aller aufsteigenden Streckenzüge. Die Verbandsordnung von 𝔅(KV) ist später im Schritt 3 als die Klassentaxonomie im Ontologieschema zu interpretieren.

Abb. 6
figure 6

Der Begriffsverband 𝔅(KV)

Entsprechend erzeugen wir aus dem Kantenkontext KE das Liniendiagramm des zugehörigen Begriffsverbands 𝔅(KE). Die Verbandsordnung von 𝔅(KE) ist zu interpretieren als die Taxonomie der Relationstypen im Ontologieschema, die hier zunächst noch flach ist.

Schritt 3: Erstellung des Ontologieschemas

Das Liniendiagramm von 𝔅(KV) in der Abb. 6 zeigt im Wesentlichen bereits das Grundgerüst des Ontologieschemas. Die durch die Kreise repräsentierten Begriffe im Liniendiagramm haben noch keine Bezeichner. Die Namensvergabe setzt einen mentalen Akt voraus. Es ist nicht damit getan, dem Knoten ein „Etikett zu verpassen“, sondern es gilt für den Experten des Wissensgebiets anhand der Gegenstandsmenge und der Merkmalsmenge eines jeden Begriffs im Begriffsverband einen entsprechenden Begriff aus dem zu modellierenden Wissensgebiet ausfindig zu machen. Dieser muss alle Gegenstände der Gegenstandsmenge umfassen und alle Merkmale der Merkmalsmenge aufweisen. Die Bezeichnung dieses so gefundenen Begriffs kann dann als Klassenname herangezogen werden.

Nach der Vergabe sprechender Klassennamen folgt die Einbettung der Relationstypen. Hierfür sind für einen Relationstyp r die jeweils zwei Klassen ausfindig zu machen, zwischen denen der Relationstyp „aufgehängt“ wird, d. h. es gilt, die zwei vom Umfang kleinsten Klassen zu ermitteln, zwischen deren Instanzen die Beziehung besteht.

Dazu helfen die Ableitungsoperatoren ↑ und ↓ der FBA wie folgt:

Ist A eine Menge an Gegenständen, zu der der Begriff mit dem kleinsten Umfang U gesucht wird, der alle Elemente von A enthält, dann ist U = (A↑)↓ die Gegenstandsmenge, die zum gesuchten Begriff gehört. Dieser eindeutig bestimmte Begriff entspricht dann der gesuchten Klasse. Damit können wir das Ontologieschema mit den Relationstypen als Semantisches Netz SN2 erstellen  (Abb. 7).

Abb. 7
figure 7

Ontologieschema als Semantisches Netz SN2

Schritt 4: Überprüfung des Ontologieschemas

Die im Semantischen Netz SN1 abgebildeten Elementarsätze können durch unzureichende Erhebung unvollständig oder unzutreffend sein. So fällt z. B. auf, dass die Klasse Skulptur Unterklasse der Klasse Ausstellungsobjekt ist; d. h. jede Skulptur wird ausgestellt. Der Kunstkenner weiß allerdings von Fällen, dass es auch Skulpturen gibt, die nicht ausgestellt werden, so z. B. die Skulptur Reclining Figure des Naturalisten Henry Moore. Dies führt zu den Elementarsätzen „Henry Moore schlägt Reclining Figure.“, „Henry Moore ist Naturalist.“ und „Reclining Figure ist eine Bronzeskulptur.“.

Der Schritt 4, also die Überprüfung des Ontologieschemas, kann nicht automatisiert werden. Allenfalls können bei der Überprüfung des Ontologieschemas mithilfe der Merkmalimplikation (Schlussfolgerungen zwischen Merkmalen des formalen Kontexts), deren automatisch durch das FBA-Programm ConExp erstellten Implikationen als Stütze dienen. Derartige Implikationen zwischen Merkmalen sind im vorliegenden Kontext beispielsweise:

istKubist → malt und  istNaturalist → schlägt.

Lehnt der Experte eine Implikation ab, dann ist er gefordert, einen neuen Elementarsatz zu ergänzen (wie es bei der obigen Klasse Skulptur der Fall war) oder ggf. einen alten – dann falschen – zu streichen. Um die zweite der beiden o. a. Implikationen zu widerlegen, reicht es aus, einen neuen Elementarsatz mit einem Naturalisten aufzunehmen, der keine Skulpturen schlägt (Abb. 8).

Abb. 8
figure 8

Begriffsverband der Knoten 𝔅(KV) nach dem zweiten Durchlauf

Die FBA liefert im Liniendiagramm der Kanten die Relationstypen-Taxonomie, welche bei der konventionellen Top-down-Methode meist nicht erkannt oder berücksichtigt wird. In unserem Fallbeispiel war sie nach dem ersten Durchgang trivial; die Hierarchie war flach. Nach dem zweiten Durchlauf ist das Ergebnis wie folgt (Abb. 9).

Abb. 9
figure 9

Begriffsverband der Kanten 𝔅(KE) nach dem zweiten Durchlauf

Als Ergebnis des 2. Durchlaufs erhalten wir das folgende Klassendiagramm (Abb. 10).

Abb. 10
figure 10

Ontologieschema als Semantisches Netz SN2 nach dem zweiten Durchlauf

Schritt 5: Ableitung des Entity-Relationship-Diagramms

Das Ontologieschema in Abb. 10 kann in ein ERDFootnote 4 überführt werden, wobei nicht alle Knoten und Kanten des SN2 in das ERD übernommen werden. Kandidaten für Entitätstypen sind solche Klassen, für die es betriebliche Funktionen gibt, die sie auch verwenden, und Klassen, die an Relationstypen beteiligt sind. Im ERD wird zur Darstellung der Kardinalitäten die (min, max)-Notation verwendet. Die einzelnen Häufigkeitsangaben werden dem aktuellen Datenbestand entnommen. Sie sind bei der Qualitätssicherung zu überprüfen und deren Ergebnis kann genutzt werden, um das Datenmodell realitätsgetreuer zu gestalten. So kann im Beispiel mit dem Datenbestand nach dem zweiten Durchlauf gefragt werden, ob es zutrifft, dass ein Bildhauer genau eine Skulptur schlägt, und ob nicht ein Künstler mehrere Stile pflegen kann (Abb. 11).

Abb. 11
figure 11

Entity-Relationship-Diagramm mit der (min, max)-Notation

Im ERD lässt sich die Taxonomie der Relationstypen nicht ohne weiteres darstellen.

Die Implikationen

malt → erzeugt und  schlägt → erzeugt

können aber als Integritätsbedingungen in das konzeptionelle Datenmodell eingehen und in der Ontologie neben den Merkmalimplikationen die Inferenzmaschine anreichern.

Ein Attribut einer Klasse wird demjenigen Entitätstyp zugeordnet, der innerhalb der Entity-Relationship-Ordnungsstruktur von unten nach oben gehend erstmalig alle Entitäten mit den zugehörigen Attributwerten umfasst.

Aus dem ERD lässt sich dann das konzeptionelle Datenbankschema für die Ontologie ableiten.

Potenziale/Nutzenaspekte

Wir sehen in dem weitgehend automatisierbaren Verfahren eine Möglichkeit, den Modellierungsprozess und die Qualitätssicherung zu unterstützen, sowie einen Beitrag zur Konsensfindung bei den an der Entwicklung von Ontologien Beteiligten. Die Liniendiagramme zum Knoten- und Kantenkontext, das Semantische Netz des Ontologieschemas wie auch die automatisch erkannten logischen Zusammenhänge durch die Merkmalimplikation werfen inhaltliche Fragen auf und unterstützen damit den Entwickler und den Qualitätssicherer zielführend bei der Konzeption des Ontologieschemas. Auch ist jeder Schritt im Verfahren nachvollziehbar und somit von der Person des Modellierers unabhängig.

Alle Überlegungen zur Erstellung des Ontologieschemas lassen sich prinzipiell auch bei der Erstellung und Ausarbeitung beliebiger semantischer Datenschemata anwenden. Somit bietet diese Bottom-up-Methode die Chance, die Generierung des Datenbankschemas algorithmisch durch Beispielsammlungen zu unterstützen. Auch kann ein auf anderem Weg erstelltes semantisches Datenschema mit dem Ergebnis des FBA-basierten Verfahrens verglichen werden, um von den Widersprüchen wie auch den strukturellen Ergänzungen – z. B. durch neue Begriffe oder Beziehungen – zu profitieren.

Da uns nur einige Instanzen aus der Datenbasis zum Ontologieschema führen, das für alle Daten des Wissensgebietes gelten soll, muss das induktiv entstandene Ergebnis durch weitere Elementarsätze auf Plausibilität überprüft werden. Dies kann zu einem Prozess ausgebaut werden, indem neue Instanzen zu gegebenen Zeiten gegen das Schema laufen, das dann im Konfliktfall differenziert und damit erweitert bzw. um strukturelle Neuheiten ergänzt wird. Damit können die Erweiterung eines Wissensgebietes und auch ein Strukturwandel in der Ontologie einfacher berücksichtigt werden. Überträgt man diesen Prozess auf zwei oder mehr bestehende Ontologien, so kann das Verfahren auch zur Schemaintegration der Ontologien, basierend auf Auszügen aus deren Datenbeständen, genutzt werden.Footnote 5