Deprecated: Methods with the same name as their class will not be constructors in a future version of PHP; breadcrumb has a deprecated constructor in /kunden/dciwam.de/webseiten/dciwam/includes/class.breadcrumb.inc.php on line 23
Worddokumente in valides (X)HTML konvertieren
Word produziert beim Export nach HTML grauenhaften Code. Was gibt es für Alternativen?
Für Word 2000 eignet sich das Programm Tidy http://www.w3.org/People/Raggett/tidy/ von Dave Raggett. Es räumt nicht nur den eigenen HTML-Code auf, sondern kann auch für die Säuberung von Word-HTML verwendet werden.
Weitere Konvertierungsmöglichkeiten direkt aus *.rtf- oder *.doc-Dateien siehe Linkliste.
Beachte:
Qualitative Einbußen bei der Konvertierung sind meist unumgänglich.
Bei überschaubaren Textmengen mit aufwändigen Strukturen muss man daher überlegen,
ob man nicht lieber das Worddokument ins Textformat umwandelt und diesen Text mit einem
Quelltexteditor neu auszeichnet.
Weiterführende Links
- MajiX transformiert RTF-Files (Word) nach XML.
http://www.freedownloadscenter.com/Web_Authoring/Misc__Web_Authoring_Tools/Majix.html - Logictran RTF Converter transformiert RTF nach HTML/XML
http://www.logictran.com/index.html#r2net - Direkte Konvertierung von binären *.doc-Dateien (angekündigt)
http://www.infinity-loop.de
Ergänzung
Bei jeder Konvertierung muss man sich darüber im klaren sein, dass das Ergebnis kaum besser sein kann als das Original.
In diesem Fall heisst das:
Wenn in der Textverarbeitungen nicht mit logischen Textstilen gearbeitet wird (also statt dem Format 'Überschrift 1' fetter grosser Normaltext verwendet wird), kann kein Konverter daraus wieder ein inhaltlich stimmiges Markup machen. In vielen Fällen ist es einfacher, schneller und im Ergebnis befriedigender, wenn man sich den Text über die Zwischenablage in den HTML-Editor kopiert und mit neuem MarkUp auszeichnet.
Michael Nahrath • http://michael.nahrath.de/