Dal segmento al contesto
Negli ultimi 15 anni, i sistemi di traduzione assistita che si basano su memorie, o sistemi TMS, hanno contribuito in modo determinante all'ottimizzazione dei processi di traduzione. Le potenzialità di questi sistemi, almeno nella loro forma tradizionale, sembrano essere state completamente sfruttate; perciò molti produttori stanno mettendo mano alle loro soluzioni alla ricerca di nuovi modi per renderle più efficienti.
I sistemi di traduzione assistita utilizzano database in cui frasi della lingua sorgente vengono memorizzate insieme alle loro rispettive traduzioni. Se la stessa frase, o una simile, si ripresenta, la traduzione che è stata salvata può essere recuperata con un clic e riutilizzata.
Fondamentalmente, i sistemi sviluppati negli ultimi 15 anni si basano tutti sullo stesso assunto: l'associazione tra una frase della lingua sorgente e una frase della lingua di destinazione e la memorizzazione della coppia in un database. Alle coppie di frasi o, come vengono chiamate, le unità di traduzione, possono essere aggiunte informazioni supplementari, che concorrono alla creazione di un contesto specifico. Così è possibile risalire alla tipologia di documento in cui l'unità di traduzione è stata utilizzata, ad esempio un testo tecnico o di marketing. L'inconveniente principale in questo caso è rappresentato dal fatto che l'aggiornamento dei campi è assai laborioso. Anche, e non da ultimo, per questo motivo, l'andamento delle curve di produttività dei sistemi TMS è caratterizzato da tre fasi.
- All'inizio l'incremento della produttività è lento, poiché il database, che è vuoto, deve essere popolato di dati.
- In un secondo momento, la curva di produttività registra un'impennata, in quanto un numero sempre maggiore di traduzioni può essere richiamato da un punto di raccolta centrale.
- La curva si appiattisce e può addirittura far registrare un leggero decremento a causa dell'impegno richiesto per la manutenzione di una grande massa di dati, corredati da molte informazioni aggiuntive.
Punti dolenti dei sistemi TMS
Al fine di eliminare o almeno di ridurre il lavoro di gestione dei dati, il sistema dovrebbe essere in grado di ricordare "autonomamente" il contesto, senza richiedere all'utente la compilazione di appositi campi. Si prenda ad esempio il testo che segue.
- We have released the beta version. The application is ready to be reviewed.
- I have filled in the application form. The application is ready to be reviewed.
La traduzione in italiano della frase "The application is ready to be reviewed" varia a seconda del contesto, come appare evidente dall'esempio riportato sopra. Nella prima occorrenza, la traduzione potrebbe essere "L'applicazione può ora essere testata" mentre nella seconda "La richiesta è pronta per essere esaminata".
Immaginiamo che entrambe queste traduzioni vengano salvate in una memoria. Il sistema non può sapere quale delle due soluzioni è corretta in caso specifico, poiché il suo compito si esaurisce nel confronto tra la frase sorgente corrente e il contenuto della memoria. Se entrambe le traduzioni sono state salvate, verranno suggerite entrambe. Il traduttore potrà decidere interattivamente quale delle due proposte è quella corretta. Ma che cosa succede se il testo viene pretradotto automaticamente dal sistema di traduzione assistita, come spesso avviene quando si ha a che fare con grandi volumi? Esiste il rischio che venga utilizzata la traduzione sbagliata e che non ce se ne accorga.
Questo è il motivo per cui molte aziende rileggono l'intero testo tradotto, anche se, per esempio, solo il 10% del contenuto è nuovo. Ed è una motivazione a sostegno del fatto che anche le corrispondenze al 100 per cento provenienti da una memoria di traduzione devono sempre essere controllate.
Un'alternativa: i file di riferimento
Un altro approccio, ad esempio, è quello di stabilire le corrispondenze basandosi su file di riferimento invece che su un database centrale: è il metodo adottato da un sistema chiamato STAR Transit. Il vantaggio di questo metodo è rappresentato dal fatto che i testi da tradurre ex-novo possono essere messi a confronto con un database creato a partire da una versione precedente, dunque molto più trasparente, ordinato e sensibile al contesto. Lo svantaggio di lavorare con i file di riferimento è che gli utenti non hanno a disposizione un unico punto di raccolta centrale, dove sono memorizzate le soluzioni adottate per progetti di varia natura o addirittura per diverse discipline. Inoltre, la gestione di un numero elevato di file di riferimento è assai impegnativa.
Non si può comunque negare che, per quel che riguarda la sensibilità al contesto, i file di riferimento abbiano un'indubbia utilità, in quanto le coppie di frasi non sono estrapolate dal tessuto testuale. Questa è la ragione per cui i produttori di SDL Trados, già alcuni anni fa, hanno introdotto la tecnologia "PerfectMatch", che consente di confrontare i nuovi documenti sorgente con versioni precedenti bilingue. Grazie a ciò, SDL Trados è al momento l'unica soluzione in grado di offrire entrambi gli approcci: memorie centrali e file di riferimento. PerfectMatch è un'estensione del sistema ma non costituisce una parte integrante del database, con la conseguenza che è sempre necessario gestire e aggiornare due insiemi di dati.
Sistemi di traduzione assistita sensibili al contesto
Naturalmente, le cose sarebbero molto più semplici se i sistemi di traduzione assistita potessero essi stessi salvare il contesto come avviene, almeno in parte, in alcuni dei sistemi più recenti. In buona sostanza, la sensibilità al contesto viene garantita da unità di traduzione più estese, che non contengono solo la coppia di frasi isolate. MemoQ, dell'azienda ungherese Kilgray, ad esempio, oltre alle frasi in lingua originale e alla loro traduzione "ricorda" la frase che veniva prima e quella che veniva dopo il segmento corrente in un documento precedente. MemoQ assegna una corrispondenza del 101 solo se la frase corrente e quelle che la precedono e che la seguono si presentano nuovamente nella stessa sequenza. MemoQ ha chiamato questa tecnica, che consente al sistema di suggerire la soluzione corretta anche in casi ambigui, quando esistono svariate traduzioni, ContexTM.
Déjà Vu di Atril si comporta nello stesso modo, prende cioè in considerazione le frasi circostanti e, se l'esito è positivo, propone una corrispondenza garantita, un "Guaranteed Match".
Anche SDL Trados ha adottato questo approccio: SDL Trados Studio 2009 tiene sempre conto della frase precedente e della sua traduzione. Pertanto, se la frase che viene prima del segmento corrente e la sua traduzione sono identiche a quelle che compaiono in un documento precedente, SDL Trados Studio 2009 fornisce un "Context Match", una corrispondenza basata sul contesto. Inoltre, riporta altre informazioni contestuali, ad esempio se il segmento è contenuto in un titolo, in una tabella o in una nota.
Lasciarsi alle spalle il segmento?
Per oltre 10 anni i sistemi di traduzione assistita hanno suddiviso i documenti in segmenti, che in genere coincidono con le frasi. Gli sviluppi recenti vanno nella direzione di memorizzare nel segmento anche ciò che sta intorno a un'unità di traduzione. Talora si valuta anche l'utilità di abbandonare completamente il segmento nella sua concezione classica.
Sino a che punto allontanarsi dalla tradizionale analisi in segmenti potrebbe migliorare la produttività? Cominciamo con il dire che i progetti di traduzione possono essere suddivisi in tre gruppi principali:
- Aggiornamenti, che presentano una percentuale elevata di recupero da documenti preesistenti, come ad esempio i manuali software
- Documenti che contengono pochissime ripetizioni e poche corrispondenze con testi precedenti, come gli opuscoli
- Testi molto brevi, ad esempio note o appunti, che vengono spesso tradotti da traduttori occasionali, non da professionisti
Soprattutto per quel che riguarda la prima categoria, cioè per gli aggiornamenti, la suddivisione in segmenti non costituisce sempre il metodo migliore.
Si supponga che la documentazione di un'applicazione software (versione 1.0) tradotta lo scorso anno si aggiri intorno ai 10.000 segmenti. La versione aggiornata 1.1 è in lavorazione. Ipotizziamo che la documentazione della versione 1.1 differisca dalla versione precedente del manuale di un 5 per cento, vale a dire che i segmenti da tradurre ex-novo o da modificare siano circa 500. Rimangono 9.500 segmenti identici che devono essere inseriti nel testo di destinazione, operazione che può essere effettuata a mano, sotto la supervisione di un traduttore, oppure automaticamente, senza alcun controllo manuale.
In questo caso, la probabilità che interi paragrafi o addirittura capitoli interi siano uguali a quelli della versione precedente è molto alta. Spesso, viene introdotto un paragrafo qui e là per descrivere una nuova funzione. Per questo motivo, in progetti di tale natura sarebbe più utile disporre di unità di traduzione che coincidono con i paragrafi, ad esempio, oppure con sezioni, piuttosto che con segmenti singoli. Il raffronto tra unità semantiche più grandi fornisce una quantità di informazione contestuale molto maggiore di quella fornita dalle singole frasi ed è dunque decisamente più affidabile. Se si mettono a confronto unità semantiche più grandi, tuttavia, si può perdere il riconoscimento delle singole frasi. Esempio: una sezione completamente nuova contiene una frase già utilizzata in un documento precedente: "Please note".
Se l'unità utilizzata per il confronto coincide con l'intero paragrafo, tale frase non verrà riconosciuta, essendo assolutamente poco significativa in un blocco di testo che contiene, supponiamo, 500 parole. Perciò, occorrerà ritradurla manualmente; ma l'impegno necessario è più che compensato dalla maggiore affidabilità del risultato e dalla minor quantità di lavoro richiesto per controllare l'intero progetto.
Naturalmente, memorizzare unità di traduzione che corrispondono a un intero paragrafo non ha un impatto positivo, dal punto di vista della produzione, su ogni tipo di progetto. Va da sé che la situazione ideale sarebbe quella in cui l'utente può configurare il proprio sistema in modo da memorizzare unità semantiche più grandi o più piccole a seconda dei requisiti e del tipo di testo: sezioni, paragrafi o singole frasi come in precedenza.
Riconoscimento di parti di segmenti o di sottosegmenti
Per chi sta traducendo un opuscolo o per un traduttore occasionale, unità di traduzione più grandi difficilmente rappresentano un vantaggio, in quanto le possibilità di ripetizioni di frasi o di paragrafi in tali tipi di testi sono molto basse. Per questo, alcuni produttori si muovono anche nella direzione opposta rispetto a quella delle unità di traduzione "allargate", proponendo sistemi in grado di gestire anche entità più piccole, i cosiddetti "sottosegmenti". Molti testi, infatti, contengono solo poche ripetizioni di frasi intere. Ne sono un tipico esempio gli opuscoli di marketing e i comunicati stampa. Singole parole, espressioni e anche frasi subordinate, d'altro canto, si ripresentano frequentemente in tutti i tipi di testi. Di fatto, già da molto tempo i sistemi proposti da tutti i produttori sono in grado di riconoscere i sottosegmenti. Questa funzionalità, nota agli utenti come "concordance" è, a detta di molti, la più importante in un sistema di traduzione assistita.
Grazie alla ricerca della "concordance", tutte le frasi che contengono una specifica espressione possono essere richiamate dalla memoria. L'unico svantaggio in questo caso è che la ricerca presuppone l'intervento attivo degli utenti, che non vengono avvisati automaticamente dell'esistenza di possibili soluzioni. Inoltre, occorre individuare l'espressione tradotta all'interno della frase, selezionarla e inserirla manualmente nel testo.
SDL Trados Studio 2009 propone una funzione di suggerimento automatico, AutoSuggest, che consente di inserire velocemente i sottosegmenti pertinenti nel testo di destinazione. Mentre il traduttore digita il testo, il programma suggerisce automaticamente espressioni che potrebbero essere adatte al contesto. Ad esempio, se la frase del testo sorgente contiene il sottosegmento "according to our agreement", è sufficiente digitare la lettera "c" perché il sistema completi automaticamente la frase sino ad ottenere "come concordato".
Il riconoscimento di sottosegmenti può velocizzare sensibilmente il lavoro di traduzione e renderlo più agevole. Anche se un documento ha poche frasi che si ripetono, i sottosegmenti ritornano in quasi tutti i tipi di testo. Il punto dolente di AutoSuggest è che i sottosegmenti non vengono conservati nella memoria ma in un database separato, il cui processo di creazione è disgiunto da quello della memoria di traduzione. Anche altri produttori hanno dotato i loro sistemi di funzioni di riconoscimento dei sottosegmenti. MemoQ, ad esempio, esegue la ricerca automatica della "concordance" per ogni segmento del testo sorgente. I sottosegmenti che ricorrono in altri segmenti vengono visualizzati in una finestra separata.
Il vantaggio è rappresentato dal fatto che la ricerca estesa della "concordance" non viene eseguita in un database separato ma all'interno dello stesso sistema di traduzione, che si arricchisce interattivamente di nuovi sottosegmenti man mano che la traduzione procede. Lo svantaggio di questa soluzione è che l'inserimento dei sottosegmenti nel testo di destinazione non è molto agevole, mancando un'integrazione fluida con il processo di scrittura.
Meno Word, più browser?
Oltre all'aggiunta di nuove funzioni, i nuovi orientamenti riguardano gli ambienti di editing. L'integrazione diretta delle funzionalità delle memorie di traduzione con Microsoft Word ha rappresentato una sorta di standard di settore sino a qualche anno fa. Il legame indissolubile tra i database delle TM e l'applicazione di un produttore terzo si avvia a diventare un residuo del passato, almeno per ciò che riguarda le nuove generazioni di SDL Trados e WordFast; entrambi i sistemi non si interfacciano più direttamente con Microsoft Word, ma si basano esclusivamente su un ambiente di editing proprietario. Un'ulteriore conseguenza di questo nuovo approccio è rappresentata dal fatto che, invece di file di Word bilingue, si avrà a che fare con formati di scambio basati sull'XML.
A questo punto, ci sono già i requisiti di base per il prossimo passo: la traduzione dentro al browser web. I traduttori occasionali e i revisori soprattutto avranno a disposizione un ambiente di editing basato su browser. Per chi traduce, diciamo, tre pagine al mese, non vale la pena istallare un'apposita applicazione desktop. Lo stesso discorso vale per la gran parte dei revisori e dei redattori.
Le memorie di traduzione e gli ambienti di editing basati su browser destinati ai traduttori sono stati sinora assai rari e inclusi, come ad esempio Across Language Server o SDL TeamWorks, in soluzioni di più ampio respiro pensate per la gestione dei flussi di lavoro. Sarebbe bello se l'utente potesse passare senza soluzione di continuità tra un'applicazione desktop rivolta al traduttore professionista e il browser, uno strumento adatto soprattutto ad un uso occasionale. Si tratterebbe di un passo decisivo verso sistemi di traduzione assistita per tutti.
In breve
Le possibilità dei sistemi basati sulle memorie di traduzione di stampo classico, che memorizzano coppie di frasi, sembrano essere giunte al capolinea. Sino a pochi anni fa, gli utenti erano già sufficientemente soddisfatti delle corrispondenze approssimative che venivano proposte dalle memorie di traduzione; oggi si aspettano che i sistemi di traduzione assistita propongano loro soluzioni impeccabili e altamente affidabili.
Unità di traduzione composte da un segmento sorgente e un segmento di destinazione non sono sufficienti a garantire l'affidabilità della corrispondenza. L'aggiunta di campi di attributi che contengono informazioni aggiuntive e la loro gestione rappresentano una soluzione parziale al problema e comportano un impegno gravoso. I sistemi di traduzione assistita dovrebbero essere in grado di salvare automaticamente nell'unità di traduzione informazioni allargate, che fanno riferimento al contesto. E si dovrebbe trattare anche di informazioni strutturali, come quelle che riguardano la posizione della frase nel testo - ad esempio se la frase compare in un titolo - o su ciò che la circonda, cioè sulle frasi o paragrafi che la precedono o la seguono.
D'altro canto, funzionalità di riconoscimento dei sottosegmenti adeguatamente sviluppate potrebbero aumentare sensibilmente i livelli di produttività per tutti i tipi di testi. L'associazione tra unità di traduzione sensibili al contesto e il riconoscimento dei sottosegmenti offre ampie possibilità di ottimizzazione, non dissimili da quelle che, circa 15 anni fa, i primi sistemi di traduzione assistita hanno portato nel settore.
Ziad Chama ha studiato a Monaco ed è un traduttore e interprete autorizzato. Dal 1999 al 2006 ha partecipato allo sviluppo di prodotti presso SDL Trados in qualità di Product manager . Dal 2007 è consulente aziendale free lance e svolge attività di formazione sui sistemi di traduzione assistita, sulla terminologia e sui flussi di lavoro.
Questo testo è la traduzione di un articolo in tedesco pubblicato su 'technische kommunikation', la rivista di tekom dedicata ai professionisti della comunicazione e dell'informazione tecnica. Per ulteriori informazioni si rimanda al sito www.tekom.de.
Fare clic su questo collegamento per leggere l'articolo originale in tedesco.