Eventi

XML & Co. – Stato attuale e prospettiva

Gli standard con un futuro

Mentre solo 10 anni fà pochi consulenti altamente specializzati cercavano ancora con grande entusiasmo di individuare in SGML il formato base della comunicazione tecnica del futuro oggi XML è diventato lo standard di cui non è più possibile fare a meno, parte integrante di molti progetti. Quest'articolo rivolge uno sguardo indietro alla nascita di SGML e XML, esamina i successivi sviluppi e gli standard che si sono affermati relativamente a XML e cerca di prevedere cosa porteranno gli anni a venire.

Nel 1969, IBM sviluppa il linguaggio di formattazione DCF GML. Dopo 17 anni e diverse sessioni ISO, viene pubblicato lo standard ISO 8879 "Standard Generalized Markup Language" (SGML). Questo è il primo importante passo verso una codifica di informazioni e documenti standardizzata, strutturata e svincolata dal mezzo di pubblicazione scelto, che si prestasse ad una organizzazione modulare dei contenuti e che fosse anche indipendente da hardware e software. Tuttavia, passano diversi anni prima che SGML venga accettato ed utilizzato anche nella pratica.

Inizialmente SGML viene adottato solo da chi può disporre di consistenti risorse da dedicare a tale investimento: l'esercito americano con la sua iniziativa CALS, l'esercito europeo con la specifica AECMA, l'industria dell'aviazione civile con la sua specifica ATA 100 ed i grandi editori di dizionari e di letteratura tecnica. SGML è considerato esaustivo ma complicato e, soprattutto, costoso. I detrattori dicono che l'acronimo significa "Sounds Good, Maybe Later" (sembra buono, forse più avanti). Gli alti costi sono dovuti anche alla scarsa disponibilità di software in grado di gestire SGML e allo scarso volume di vendite del medesimo.

Nonostante tutto questo, la commissione ISO di competenza crede nel futuro successo di SGML, e continua il lavoro sugli standard relativi alla formattazione di documenti – ISO/IEC 10179 "Document Style Semantics and Specification Language" (DSSSL), e alla strutturazione delle "reti di riferimenti incrociati" – ISO/IEC 10744 "Hypermedia/Time-based Structuring Language" (Hytime). Entrambi gli standard sono molto corposi, molto generali, molto complessi e, finora (per quanto ne possa sapere l'autore), nessun software è mai stato in grado di supportare lo standard completamente; si è riusciti ad implementarlo solo in parte. A metà degli anni novanta sembra che SGML & Co. siano rimasti intrappolati in un vicolo cieco.

Versione "light"
La salvezza arriva dal web. I pionieri del World Wide Web Consortium (W3C) sanno che l'HTML, con il suo gruppo di elementi rigidi, non è abbastanza flessibile. D'altra parte l'SGML sembra essere troppo complesso per il web. E' cosi che ad un gruppo di esperti Web e SGML viene commissionato, nel maggio 1996, il progetto di elaborare una versione semplificata di SGML adatta al web. Appena due anni dopo, nel febbraio 1998, la Versione 1.0 di "eXtensible Markup Language" (XML) viene accolta come nuovo standard W3C. Tra l'altro la commissione ISO la inserisce nello standard ISO chiamandolo "Web-SGML".

Intorno allo standard XML, la W3C ne sviluppa altri. Fra questi, quelli più importanti per la comunicazione tecnica sono:

· eXtensible Stylesheet Language (XSL) e XSL-Transformation (XSLT): formalismi per descrivere il layout e la trasformazione/conversione di dati, che proiettano, in forma semplificata, i concetti DSSSL verso XML. XSLT diventa il linguaggio per la manipolazione dei dati XML, in particolare per generare codice HTML.

· XLink: formalismo per descrivere le reti di riferimenti incrociati; applica in forma semplificata i concetti HyTime a XML e al Web.

· XML-Schema: formalismo per definire la struttura di un documento XML che espande il concetto delle "document type definitions" (DTDs) di XML/SGML arricchendole delle informazioni inerenti ai "tipi di dati" ed alla "espansibilità".

· Scaleable Vector Graphics (SVG): formalismo per la descrizione di grafici vettoriali in 2D nel XML.

· MathML: formalismo per la descrizione di formule matematiche in XML.

Inoltre, visto che XML è basato su Unicode e quindi è in grado di supportare tutte le lingue più comuni del mondo, non sussistono più limitazioni alla sua introduzione nella comunicazione tecnica.

XML diventa abbordabile
Originariamente concepito come formato per documenti per il web, XML trova presto più ampie aree di applicazione. Lo standard diventa la lingua franca per tutti i tipi di scambio elettronico di dati. Notizie su nuove applicazioni di XML nei più svariati settori e contesti arrivano quasi tutti i giorni. La clamorosa pubblicità al fenomeno XML da origine ad un gran numero di strumenti per XML di tipo Open Source disponibili gratuitamente o comunque a prezzi molto bassi.

Anche la comunicazione tecnica tutto sommato trae vantaggio da questi sviluppi. Gli strumenti di editing sono disponibili in grande varietà ed i prezzi scendono costantemente. Anche i browser supportano l'XML. Gli strumenti XSL gratuiti permettono la generazione automatica di PDF. I pochi sistemi di authoring per l'SGML incontrano una forte concorrenza dai numerosi sistemi di gestione di contenuti basati su XML. I sistemi di traduzione assistita supportano il formato XML. La stessa Microsoft punta su XML e supporta schemi XML nelle sue applicazioni Word ed Excel – anche se i risultati non sono sempre soddisfacenti.

Ma la cosa più importante è che la larga diffusione dell' XML ne rende più economica l'introduzione nei processi senza il contributo di consulenti specializzati. Al contrario, ora XML è considerato parte della conoscenza informatica di base. Pertanto, i progetti XML non sono più costosi o rischiosi di altri progetti informatici.

Applicazioni predefinite
Il minor rischio economico comporta l'uso di applicazioni XML definite da un gruppo di interesse specifico o di applicazioni che sono pronte all'uso. Uno dei gruppi di interesse può essere un gruppo di lavoro che opera in un settore specifico o la commissione di un ente di standardizzazione. In ogni caso rappresenta le esigenze di un gruppo utenti e perciò assicura che l'applicazione XML sviluppata sia davvero pronta per l'uso.

La definizione della struttura di documenti tramite le DTD o uno schema XML è il risultato del lavoro di una delle suddette commissioni. Spesso queste commissioni elaborano anche una documentazione per le strutture, preparano conversioni XSL per determinati mezzi di pubblicazione o adattano determinati software di editing. Se questo lavoro produce un corrispondente "starter kit", i reparti addetti alla redazione tecnica possono iniziare immediatamente con il proprio lavoro. Ovviamente, questi "starter kit" possono anche essere adattati alle specifiche esigenze dell'azienda.

Tre di queste applicazioni XML standardizzate sono: DocBook, DITA e mumasy.

DocBook – ampio e personalizzabile
DocBook è stata sviluppata a metà degli anni novanta da un consorzio di aziende negli Stati Uniti come SGML-DTD per la documentazione di hardware and software. Molte aziende rinomate che operano nel settore della "information technology" e molti progetti Open Source utilizzano DocBook per le loro esigenze di documentazione, compresi Hewlett Packard, IBM, Sun ed anche diversi produttori di distribuzioni Linux. Nel frattempo, esiste anche una versione XML ed una definizione sotto forma di schema XML [1].

DocBook è una struttura di documento con un elevato numero di elementi, dei quali solo un piccolo sottogruppo è necessario per la comunicazione tecnica. Per questo motivo, è ragionevole personalizzare la DTD di DocBook (ovvero lo schema) adattandolo alle esigenze individuali ed eliminando gli elementi superflui. DocBook è stato concepito esplicitamente per tali personalizzazioni. Anche se DocBook (il nome è appropriato) supporta una struttura a libro monolitica, può essere impiegato perfettamente per la documentazione modulare, ad esempio, attraverso l'elemento ricorsivo "section". In ogni caso, DocBook soddisfa le esigenze di implementazione delle istruzioni di sicurezza.

Esistono vari script XSL(T) e programmi di conversione per DocBook atti a generare HTML, PDF o help online. Tutti i produttori di editor forniscono con il loro software una personalizzazione di DocBook. DocBook è standardizzato e manutenuto da un'organizzazione non commerciale denominata OASIS [2] [3].

DITA – moduli per tipo
DITA è un'applicazione XML relativamente recente sviluppata da IBM, anch'essa pensata per la documentazione di hardware e software. Mentre DocBook da importanza al manuale come documento finale, DITA si basa interamento sul concetto di moduli di contenuto che possono essere poi raggruppati in maniera flessibile per la creazione di diversi documenti finali e destinati a diversi mezzi di pubblicazione.

I moduli DITA sono classificati per tipo e per ogni tipo di informazione esistono strutture modulari predefinite. Nel caso in cui le tipologie o le strutture non siano adatte alla propria documentazione, possono essere definite sottotipologie o sottostrutture adeguate utilizzando una procedura predefinita. DITA si adatta così alle proprie esigenze in maniera evolutiva. Il fattore chiave è che la relazione o il riferimento alle tipologie o alle strutture originali viene mantenuto. Da qui anche il nome DITA: Darwin Information Typing Architecture.

mumasy – XML per impianti e macchinari
Mumasy è uno sviluppo interamente tedesco intrapreso sotto la guida della "Verband Deutscher Maschinen- und Anlagenbau" (VDMA, Associazione di Produttori Tedeschi di Impianti e Macchinari). Di conseguenza, mumasy è mirato alla comunicazione tecnica per il settore macchine ed impianti industriali. Come DITA, supporta moduli di contenuto classificati per tipo. Le strutture modulari predefinite sono molto più sofisticate e dettagliate rispetto a quelle di DITA. Inoltre, mumasy è un'applicazione interamente tedesca, perciò tutti gli elementi e attributi XML hanno nomi tedeschi ed anche la stessa documentazione è disponibile solo in lingua tedesca.

Estensioni o personalizzazioni di mumasy per adattarlo alle proprie esigenze possono essere eseguite utilizzando i metodi dello schema XML. Le prime prove pratiche in condizioni di impiego hanno dimostrato la validità dell'impiego di mumasy nella comunicazione tecnica. Lo schema mumasy è stata standardizzato come VDMA-Unit Sheet 66320 [4].


XML e la gestione della conoscenza
Con XML è possibile creare documenti strutturati, o comporli in pubblicazioni svincolate dal mezzo di pubblicazione. I contenuti resi disponibili in questo modo, spesso devono essere arricchiti aggiungendo meta informazioni per ottenere un vero valore aggiunto rispetto al semplice contenuto puro. Nella maggior parte dei casi, il valore aggiunto agevola l'individuazione veloce e focalizzata dell'informazione cercata. Sommari, riferimenti incrociati ed indici analitici costituiscono tre esempi ovvi di tali meta informazioni. Altri esempi sono meta dati che descrivono il termine di validità della pubblicazione o del modulo, i sistemi di classificazione usati per le categorie dei moduli e i lessici per organizzare la terminologia.

Collegamenti XLink
Attraverso XLink, la W3C ha sviluppato un formalismo che permette l'interconnessione del contenuto con l'ausilio di riferimenti. La gamma di funzionalità XLink spazia dal semplice riferimento incrociato "vedi anche", ai riferimenti complessi che inseriscono moduli e grafici in altri moduli o pubblicazioni, fino alle reti di riferimenti incrociati che stabiliscono rapporti complessi fra diverse sezioni di testo.

Un vantaggio di XLink rispetto al concetto di riferimento incrociato utilizzato ad esempio in HTML è rappresentato dalla possibilità di gestire l'informazione sul riferimento incrociato in modo totalmente indipendente dal contenuto. Possono essere così creati o aggiornati riferimenti senza dover intervenire sui contenuti. Tutto ciò è particolarmente interessante nei casi in cui i contenuti non possano più essere modificati per motivi editoriali, per esempio quando provengono da un fornitore, ma nonostante questo devono comunque essere collegati. Il sistema di authoring provvede alla gestione dell'informazione sul riferimento incrociato, liberando il redattore tecnico dalla gestione dei dettagli XLink.

RDF e Topic Maps – classificare l'informazione
Per modellare indici analitici, sistemi di classificazione, lessici o altri meta dati in generale, la W3C ed ISO hanno standardizzato altre due tecnologie: RDF e Topic Maps.

La Resource Description Framework (RDF) è utilizzata per assegnare contenuti a qualsiasi tipo di meta informazione. Ci possono essere meta dati semplici come l'autore, la data di pubblicazione ed il numero di versione, fino a modelli di conoscenza veramente complessi, le cosiddette "ontologie". RDF era stata standardizzata già nel 1999, ma è stata oggetto di maggiore attenzione negli ultimi due anni a seguito della discussione sul Web Semantico. Il Web Semantico dovrebbe fornire ad Internet non solo i contenuti ma anche il significato dei contenuti in maniera comprensibile alla macchina. In questo senso RDF riveste un ruolo chiave come formato generico per i metadati. RDF è integrata in questo ruolo dal linguaggio schema "Web Ontology Language (OWL)", nonché dal linguaggio per le query SPARQL [5].

Ma anche al di fuori dal Web, RDF è in grado di modellare la conoscenza attraverso contenuti, velocizzando e semplificando l'accesso all'informazione desiderata. Per esempio, modellando un sistema di classificazione utilizzando moduli principali/sottomoduli/componenti in cui le istruzioni di manutenzione e riparazione corrispondenti sono incorporate.

Le Topic Maps (ISO/IEC 13250) sviluppate da ISO sono ugualmente potenti. Originariamente concepite come indici elettronici di parole chiave, le Topic Maps sono ugualmente adatte a modellare strutture di conoscenza come sistemi di classificazione, lessici ed ontologie generali. A differenza di RDF, che fornisce strutture di basso livello che possono essere elaborate dalla macchina per la modellazione delle informazioni, lo standard delle Topic Maps definisce già una serie di costruzioni ad alto livello che semplificano molto la modellazione, il che giustifica l'affermazione "Topic Maps per gli umani e RDF per le macchine". Anche le Topic Maps hanno un linguaggio schema (TMCL) ed un linguaggio query (TMQL) [6] [7].

Al momento non è possibile prevedere quale di questi due formati avrà successo ed in quale area di applicazione. In qualsiasi caso, RDF ha alle spalle le maggiori squadre di ricerca e di sviluppo.

Prospettiva
Azzardiamo uno sguardo nella sfera di cristallo! Cosa ci porteranno i prossimi anni, rispetto a XML & Co. nella comunicazione tecnica? Si può sicuramente presumere che XML continuerà a farsi valere fra gli strumenti di Office. MS-Word come editor XML semplice e facile da usare sembra essere abbastanza realistico. Questo trova conferma nel fatto che OASIS ha recentemente standardizzato il formato OpenDocument, che si basa su XML, per documenti Office. Questo aumenta la pressione sulla Microsoft per spingersi verso "open documents".

Quando MS-Word sarà in grado di supportare qualsiasi tipo di formato XML in maniera adeguata, gli altri produttori saranno costretti ad adeguarsi. Un ulteriore consolidamento sarà inevitabile; agli altri produttori non resterà che abbassare i prezzi.

Anche il mercato dei sistemi di authoring e di content management è in movimento. La scelta dei sistemi disponibili sicuramente si amplierà ancora nei prossimi 1-2 anni. A questo seguirà una fase di consolidamento. Chi sceglie un tale sistema adesso deve quindi tenere in considerazione anche la stabilità economica del produttore.

Tra le applicazioni XML per la comunicazione tecnica, DITA guadagnerà terreno in maniera considerevole. Già nello stesso 2006, i produttori di software usciranno con integrazioni DITA per i loro editor, strumenti di formattazione e sistemi di authoring. Al momento è difficile prevedere se mumasy avrà lo stesso successo.

Comunque, è abbastanza prevedibile che la gestione dei contenuti e la gestione delle conoscenze convergeranno in maniera più massiccia non fosse altro che per la semplice necessità di domare l'enorme quantità di informazioni disponibili e di quelle che si aggiungono quotidianamente. Le aziende non possono più permettersi di sprecare preziose risorse umane in improduttive attività di ricerca e reperimento delle informazioni. L'informazione dovrebbe essere rilevata una sola volta ed identificata con meta dati dalla gestione della conoscenza, per poi essere liberamente disponibile per tutto il personale tramite funzioni di ricerca e navigazione.

Questo diventa sempre più importante visto che i reparti di comunicazione tecnica dovranno lavorare sempre più a stretto contatto con gli altri reparti dell'azienda. Nello scenario attuale, l'ingegneria e lo sviluppo dovrebbero trasmettere informazioni in modo puntuale ai reparti di comunicazione tecnica anche se in realtà non sempre è cosi. Lo stesso vale per gli altri servizi vicini al prodotto che contribuiscono alla catena di creazione del valore e che dovranno usare e beneficiare dell'informazione preparata e fornita dai reparti di comunicazione tecnica. La crescita, in particolare nei mercati saturi, sarà possibile solo attraverso servizi nuovi ed innovativi. E qui la comunicazione tecnica può giocare un ruolo chiave.

Dr. Hans Holger Rath ist Senior Consultant bei der empolis GmbH. Seit mehr als 15 Jahren unterstützt er erfolgreich Unternehmen aus den verschiedensten Branchen bei der Einführung von XML/SGML sowie Content- und Knowledge-Management-Systemen. Dr. Rath vertritt Deutschland in dem ISO Gremium, das unter anderem SGML, HyTime, DSSSL und Topic Maps standardisiert. Zudem ist er Mitglied im VDMA Arbeitskreis über mumasy.


Traduzione effettuata da: Tiziana Sicilia