dciwam.de / faq / verschiedenes / xml

XML - eXtensible Markup Language

Eine kurze Einführung für Kenner des WWW

Die Dokumente im WWW sind keine einfachen Textdokumente. Sie besitzen verschiedene Hervorhebungen, zeigen Bilder und Tabellen und die Seiten sind durch Hyperlinks miteinander verbunden. Die Seiten sind Textdaten, die mit Hilfe der Hypertext Markup Language (HTML) ausgezeichnet sind. HTML ist eine sogenannte Auszeichnungssprache: HTML-Dokumente bestehen aus ineinander verschachtelten Elementen (<p>Hallo Welt!</p>), die wiederum aus Start-Tags (<p>), End-Tags (</p>) und Inhalt (Hallo Welt!) bestehen.

HTML ist mit dieser Syntax "nicht einfach so" erfunden worden. Vielmehr gibt es eine internationale Norm namens SGML (Standard Generalized Markup Language, ISO 8879), die es erlaubt, Auszeichnungssprachen wie HTML selbst zu entwerfen. HTML ist mit dieser Metasprache SGML entworfen worden. SGML ist eine recht komplexe Norm, was das World Wide Web Consortium (W3C) dazu bewogen hat, eine vereinfachte Form zu entwickeln. Diese vereinfachte Form von SGML hat den Namen Extensible Markup Language (XML) bekommen. XML ist im gleichen Sinne wie SGML eine Metasprache, sie erlaubt es also, eigene Auszeichnungssprachen zu entwerfen. Die "XML-Form" von HTML hat den Namen Extensible Hypertext Markup Language (XHTML) bekommen.

Wozu XML?

HTML besitzt ein festes Vokabular an Elementtypen. Es ist nicht ohne weiteres möglich, dieses Vokabular zu erweitern. Der Vorteil besteht darin, dass jeder Web-Browser HTML kennt und die entsprechenden Dokumente darstellen kann. Einem HTML-Dokument kann eine Software jedoch nicht ansehen, worum es in dem Text geht. Mit XML ist es nun möglich, eine Auszeichnungssprache zu schaffen, die beschreiben kann, worum es sich bei dem ausgezeichneten Text (inhaltlich) handelt. Solche Sprachen werden formal als Dokumenttyp-Definition (DTD) oder XML-Schema festgelegt. Eine Sprache für Kochrezepte kann z.B. die Elementtypen rezept, zutat, menge, zubereitungsschritt usw. enthalten. Sind Rezepte erst einmal in dieser Form ausgezeichnet, wäre es ein leichtes, ein Programm zu schreiben, das meinen aktuellen Kühlschrankinhalt (den ich natürlich eingeben müsste) mit den Rezeptzutaten abgleicht und mir verrät, was ich kochen kann.

Unglücklicherweise kann der Web-Browser aber nicht mehr wissen, wie er meine Texte darstellen soll, da rezept, zutat, menge, zubereitungsschritt in HTML nicht vorkommen. Aus diesem Grund benötigt die Darstellung von XML-Daten in der Regel ein Stylesheet. Dies kann in CSS (Cascading Style Sheet) geschrieben sein oder in XSLT (XSL Transformations). XSLT ist eine Programmiersprache, die die Umwandlung von beliebigem XML (wie die Rezepte) in eine andere XML-Form (z.B. XHTML) erlaubt. Statt CSS oder XSLT kann man auch jede beliebige Programmiersprache verwenden, um XML-Daten zu verarbeiten.

Zusammenhang zwischen SGML, XML, HTML, XHTML, CSS, XSL, XSLT, DSSSL:

Zusammenhang zwischen SGML, XML, HTML, XHTML, CSS, XSL, XSLT, DSSSL

Heute stellt XML die Grundlage für viele Anwendungen dar. XML-Daten erlauben aufgrund der Tatsache, dass die Nutzdaten durch Metadaten genauer beschrieben werden, eine bessere Verwendung und Mehrfachnutzung von Daten. So lassen sich beispielsweise Texte für verschiedene Ausgabegeräte aufbereiten, Rechnungen als Brief verschicken und gleichzeitig in ein Buchhaltungssystem im- oder daraus exportieren, Daten zwischen unterschiedlichen Systemen austauschen u.v.m. Viele der neuen W3C-Standards verwenden XML als zugrundeliegendes Beschreibungsformat (z.B. SVG, MathML, SMIL).

Weiterführende Literatur und Links

XML
Einführende, weiterführende und historische Texte zu XML und SGML sind auf mintert.com/xml/ zu finden. Dort gibt es auch eine Sammlung ausgewählter Links zu diesem Thema
W3C-Spezifikationen
Beim W3C gibt es die XML-Spezifikation in englischer Sprache. Beim deutschen übersetzungsprojekt <edition W3C.de> gibt es die deutsche übersetzung der XML-Spezifikation

Ein Einführungsartikel von Stefan Mintert ist unter http://www.mintert.com/xml/ verfügbar.

Die deutsche übersetzung der Extensible Markup Language (XML) 1.0 (Zweite Auflage) vom 20. Januar 2002 des W3C ist unter: http://www.edition-w3c.de/TR/2000/REC-xml-20001006/ zu finden.

Übersetzer: Stefan Mintert . http://www.mintert.com/

© 2002 Stefan Mintert, http://www.mintert.com/

Zum Seitenanfang

URL: http://dciwam.de | Letzte Änderung: 23.10.2004 | G. Schneider | Kontakt