
Integration verschiedener DatenquellenDie Hauptkomponente
DocScape Publisher des DocScape-Systems erhält als Eingabe
eine strukturierte
XML-Datensatzdatei (bei Bedarf modular verteilt auf mehrere
verknüpfte XML-Dateien), aus der eine PDF-Datei erzeugt wird.
Die Integration verschiedenster Datenquellen in besagte Datensatzdatei übernimmt die
Komponente
DocScape Data Extractor. Sie wird konfiguriert durch ein
XML-Schema für die Datensatzdatei, in dem neben der
Datenstrukturierung durch spezielle DocScape-Annotationen auch die
Datenquellen sowie weitere Aggregations- und
Strukturierungsregeln festgelegt werden. Durch Verknüpfung diverser Datenquellen über eindeutige
Schlüsselkriterien stellt das Dokument eine integrative
Sicht auf eine Vielzahl vohandener Datenquellen dar.
Einige Szenarien:
- Datenerzeugung über führendes
ERP-System. Gruppierung in Artikelgruppen, Produktfamilien
und Katalogkapitel über hinterlegte Gruppierungsschlüssel. Verknüpft über die Artikelnummer werden
Produktbeschreibungstexte (RTF) und Abbildungen (Bildformat) als Dateien eingebunden.
- Datenerzeugung über führendes
PIM-System. Redaktionelle Inhalte zu Produktfamilien
(Einleitung, Projektbilder als Störer) sind im CMS hinterlegt und werden über Familienschlüssel
verknüpft.
- Datenerzeugung über führendes
CMS-System. Dort werden die Inhalte bis zur Ebene der
Artikelgruppen (inkl. Beschreibungstexte und Produktbilder) gepflegt, strukturiert und die
Reihenfolge der Inhalte für den Katalog festgelegt. Produktdaten, technische Eigenschaften und
Preisinformationen werden, verknüpft über die Artikelnummer, direkt dem Warenwirtschaftssystem
entnommen.
- Anbindung an
Ausgabeschnittstelle des ERP-Systems (z.B. für Angebote).
Ausgabedateien des ERP-Systems (z.B. RDI) werden in XML gewandelt sowie, verknüpft über die
Artikelnummer, mit Daten des PIM-Systems vermischt und unter Verwendung des vollständigen
Katalogregelwerks z.B. als
Bildangebote publiziert.
Der Zugriff auf sämtliche Datenquellen, bei Bedarf Wandlung nach XML (z.B. RDI, RTF, XLS),
Aufbau und Vereinheitlichung der XML-Strukturen und die Vereinigung aller Inhalte in einer
gemeinsamen Datensatzstruktur, übernimmt vollautomatisch der
DocScape Data Extractor.
Für die Umsetzung des DocScape Data Extractors setzt QuinScape mit JAVA und XSLT auf
Standardtechnologien, die die Portierbarkeit und Wartbarkeit auf lange Sicht sicherstellen.
Automatische Datenverdichtung und AggregationNeben der Festlegung von Datenquellen und
Strukturierungskriterien für die Datenextraktion aus verschiedenen Quellen können im
XML-Schema für die Datensatzdatei noch
Verdichtungs- und
Aggregationsregeln festgelegt werden, mit der Daten nach
verschiedenen Kriterien gruppiert und zusammengefasst werden können.
Mögliche Anwendungen:
- Gruppierung von aufeinanderfolgenden Artikeln mit gleichem Produktfoto zu
Artikelgruppen.
- Sammlung, Verknüpfung und Zusammenfassung von
Zubehörartikeln.
- Erstellung von
Symbollisten.
- Zusammenstellung von Detailbildern für generierte Diagramme (z.B. Explosionszeichnungen).
-
Ein/Ausschlussregel: Soll eine Artikeleigenschaft allgemein
für die Artikelgruppe genannt und nur die Ausnahmen aufgezählt, oder soll die Eigenschaft auf
Artikelebene genannt werden?
Durch Wahl entsprechender Strukturierungs-, Verdichtungs- und Aggregationsregeln können aus
demselben Datenbestand sehr verschiedene Dokumentstrukturen generiert werden, z.B.
- Hauptkatalog, Übersichtskatalog, Preisliste;
- spezialisierte Spartenkataloge (mit sorgfältig abgestimmtem Informationsangebot, z.B.
Detailbilder, Explosionszeichnungen , erzeugte Diagramme, Featuretabellen);
- Mehrwert-Angebote für Premium-Kunden;
- Personalisierte Kataloge/Broschüren: Hervorgehobene Darstellung von Artikeln, die aufgrund des
Kundenprofils besonders interessant sind.
Die regelbasierte Umsetzung solcher Aggregations- und Verdichtungsaufgaben ist über die
schemabasierte Datenmodellierung für den
DocScape Data Extractor ohne Programmierung möglich.
Andere Verdichtungsregeln können erst bei der Layoutgenerierung angewendet werden, da sie vom
Platzangebot oder sonstigen layoutbedingten Kriterien abhängen (Symmetrie von Doppelseiten,
Kapitelstrukturierung, Druckbogenoptimierung):
- Darstellung von Artikeleigenschaften am Einzelartikel oder Zusammenfassung in einer Tabelle auf
Artikelgruppenebene.
- Auswahl von Produktbildern aus der Gesamtmenge der vorhandenen Bilder (verschiedener
Größe/Form).
- Weglassen weniger wichtiger Artikeleigenschaften zur Platzeinsparung.
- Auswahl platzsparender oder aufwändigerer Layoutvarianten für Premiumartikel (bei mehrstufiger
Premiumeinstufung) zur Platzoptimierung.
- Aggregation von Artikeltexten.
- Tabellenstrukturierung.
Sobald eine Verdichtungs- oder Aggregationsregel einen möglichen Bezug zum Layoutregelwerk
hat, sollte sie nicht im Regelwerk des
DocScape Data Extractors, sondern im Regelwerk des
DocScape Publishers abgebildet werden. Die Realisierung von
Verdichtungs- und Aggregationsregeln im
DocScape Data Extractor ist wesentlich effizienter, kann
aber keine Interaktion mit dem
Layoutengine enthalten.
Einbindung externer DokumenteNicht alle Inhalte eines Dokuments müssen vollständig
datenbasiert erzeugt werden. Die Einbindung manuell erzeugter Inhalte ist auf mehrere Weisen
möglich:
- Erstellung manuell gestalteter Seiten mit einem DTP-Programm, speichern als PDF, Einbindung
durch DocScape.
Paginierung, Kolumnentitel etc. können bei Bedarf durch DocScape hinzugefügt werden, ebenso
wie die korreke Positionierung auf linken/rechten Seiten. Hat ein einzubindendes Dokument mehrere
Seiten, so wird es als Folge von Seiten in das erzeugte Dokument eingebunden. Werden im von
DocScape erzeugten Dokument sprach- oder sonstige Varianten als
PDF-Ebenen realisiert, so können auch externe Dokumente mit
mehreren Ebenen korrekt auf die Ebenen des erzeugten Dokuments übernommen werden.
- Erstellung von Seitenanteilen (z.B. Anzeigen, Störer oder sonstige Inhalte, deren Bestandteile
nicht vollständig strukturiert in der Datenbank vorhanden sind) mit einem DTP-Programm, speichern
als beschnittenes PDF, Einbindung durch DocScape.
Auf jeder Ebene der Dokumentstruktur kann ein manuell gestalteter Inhalt hinzugefügt werden
oder den eigentlich datenbasiert erzeugten Inhalt ersetzen. Die Platzierung auf der Seite erfolgt
wiederum regelbasiert durch DocScape. Auch ein externes PDF-Dokument, dessen Inhalte keine
komplette Seite füllen, kann in mehrere "PDF-Seiten" aufgeteilt sein, die einzeln platziert und auf
die eigentlichen Dokumentseiten verteilt werden. Hierdurch kann eine optimale Wirkung der
Layoutoptimierung sichergestellt werden.
Einbindung strukturierter TextinhalteDie Erfassung von Textinhalten für das
Print-Publishing ist, sofern kein Content Management System eingebunden ist, mit Sorgfalt zu
planen, denn einerseits müssen gewisse Formatierungen wie Hervorhebungen, Überschriften,
Aufzählungen und bei Bedarf Tabellen möglich sein, andererseits ist eine
medienneutrale Erfassung anzustreben, um die
Mehrfachverwendung eines Textinhalts in verschiedenen Schriftgrößen, Textbreiten und
Layoutgestaltungen zu ermöglichen. Nicht alle Dateneingabeschnittstellen erlauben die Erfassung
strukturierter Texte für Texteingabefelder. CMS-Systeme bieten diese Möglichkeit üblicherweise an.
Für die Verwendung mit DocScape sind mehrere Möglichkeiten zu erwägen:
-
Einbindung als HTML.
Editoren zur formatierten Erfassung von Textinhalten im HTML-Format stehen zur Einbindung in
webbasierte Datenpflegeoberflächen zur Verfügung. Vorteilhaft ist, dass sich nahezu beliebige
Inhalte aus anderen Applikationen über die Zwischenablage einbinden lassen. Aus Sicht der
Medienneutralität gibt es eine Reihe von HTML-Attributen (Schrift- oder Farbumschaltung, feste
Breite von Tabellenspalten), die ein solcher Text nicht enthalten sollte. DocScape bietet
Filterkomponenten, die solche Formatierungen ausfiltern bzw. durch medienneutrale Alternativen
ersetzen. Bei der Einbindung mit DocScape wird HTML nach XML gewandelt.
-
Einbindung als RTF.
RTF ist ein standardisiertes Textformat, das sich zur Erfassung von Textinhalten über
handelsübliche Textverarbeitungsprogramme (und Einbindung als Einzeldateien) eignet. Bei der
Einbindung mit DocScape wird RTF nach XML gewandelt. Aus Sicht der Medienneutralität gibt es eine
Vielzahl von RTF-Attributen (Schrift- oder Farbumschaltung, Tabelleneigenschaften), die
ausgefiltert bzw. durch medienneutrale Alternativen ersetzt werden müssen. Die DocScape-Komponente,
die RTF in XML wandelt, enthält eine konfigurierbare Filterfunktion, die folgende Aufgaben
erfüllt:
-
- Wandlung von RTF nach XML ohne Rückgriff auf Office-Software.
- Ausfiltern unerwünschter Formatierungen (Schriftart- und Farbwechsel, Absatzformate).
- Umwandlung
visueller Strukturen (z.B. Tabelle mit
x
Spalten oder Umschaltung auf größere, fette Schrift) in
logische Strukturen (z.B. Belastungstabelle oder
Überschrift).
- Auswertung von Metainformationen (Änderungsverfolgung).
-
Einbindung als DocScape-XML.
DocScape definiert einen eigenen XML-Dialekt für strukturierte Texte, der als
Transformationsziel für alle anderen Textformate dient. Dieser kann bei Bedarf über die
DocScape-Komponente
DocEdit erfasst werden. DocEdit ist ein browserbasierter
Texteditor, der über ein
XML-Schema konfiguriert wird und die folgenden Funktionen
zur Verfügung stellt:
-
- WYSIWYG-Editor für strukturierte XML-Texte.
- Einbindung in jede Web-Datenpflegemaske.
- Look-and-Feel vertraut von Office-Produkten.
- Individuell anpassbar.
- Vorgabe erlaubter Textstrukturen durch XML-Schema: An jeder Stelle des Textinhalts werden nur
die Strukturelemente angeboten, die an dieser Stelle vorkommen dürfen.
- Vorlagen, Text-/Tabellenbausteine.
- Eine Übertragung von Inhalten aus Office-Software über die Zwischenablage ist ebenfalls
möglich, wobei alle an der jeweiligen Stelle nicht erlaubten Strukturierungen ausgefiltert bzw.
umgewandelt werden.
- Datenbasierte Erzeugung von Inhaltsvorgaben.
Bildverarbeitung
- Verarbeitung ganzer Dateibäume.

- Umwandlung in PDF.
- Extraktion von Freistell- und anderen Pfaden.
- Erzeugung von Schlag- und Konturschatten.
- Make-Funktionalität.
|
 |
(English)
Die Daten müssen nicht in den verantwortlichen Systemen für das Print-Publishing aufbereitet
werden: DocScape übernimmt diese Aufgabe selbständig, von der Verdichtung bis zur automatischen
Bildbearbeitung.
|