Eventi

Memorie di traduzione: concetti base - parte 1

L'utilizzo dei computer ha reso possibile la produzione di contenuti e di pubblicazioni con tempi, costi e qualità ineguagliabili altrimenti.

Da anni il meccanismo del "copia e incolla", più o meno evoluto, è diventato pratica comune come forma elementare di riutilizzo dei contenuti.

Anche nell'ambito delle pubblicazioni in varie lingue, in particolare quelle tecniche dove i testi originali sono altamente ripetitivi, il riutilizzo delle traduzioni mediante strumenti informatici permette di evitare di tradurre due volte lo stesso contenuto, ovunque si ripresenti.

Ciò viene fatto con software studiati specificamente per questo scopo che consentono di ridurre tempi e costi e di aumentare la qualità linguistica del prodotto finale, soprattutto in termini di uniformità terminologica e stilistica.

Gli studi su queste tecnologie sono iniziati attorno al 1970 e oggi è disponibile sul mercato una gamma molto ampia di software dedicati all'industria della traduzione. Esistono applicazioni di utilizzo personale che permettono ai traduttori di ottimizzare il proprio lavoro, ma anche sistemi basati su architetture client/server che permettono ad aziende e organizzazioni di gestire l'intero flusso di lavoro necessario alla produzione di pubblicazioni in varie lingue.

Tali sistemi possono includere componenti di tipo linguistico come le memorie di traduzione, i sistemi per la gestione della terminologia e quelli per il controllo della qualità o altri di tipo gestionale per la gestione dei flussi di lavoro, la gestione economica e il controllo dell'accesso alle informazioni da parte degli utenti e così via.

Una delle tecnologie maggiormente consolidate oggi è probabilmente quella delle memorie di traduzione (TM ovvero Translation Memory) che permette di accumulare e riutilizzare traduzioni di frasi di senso compiuto.

Non c'è nulla di prodigioso in questi sistemi, si tratta semplicemente di strumenti in grado di gestire un meccanismo di copia e incolla molto evoluto che confronta il testo da tradurre con tutti quelli presenti nell'archivio (ovvero nella memoria di traduzione) e lo sostituisce con la rispettiva traduzione, se già disponibile. Questi sistemi non hanno alcuna comprensione semantica del testo; ragionano semplicemente in base al grado di corrispondenza e quindi funzionano indipendentemente da quali siano la lingua di partenza e quella di destinazione.

Il software e i sistemi di questo tipo vengono spesso definiti di tipo CAT (Computer Aided Translation); alcuni di essi vengono definiti di tipo TEnT (Translation Environment Tool).

Le tecnologie che utilizzano memorie di traduzione (TM) in genere non hanno nulla a che fare con le tecnologie per la traduzione automatica (MT ovvero Machine Translation) che hanno come obiettivo la traduzione di frasi nuove ovvero non già tradotte in precedenza. Le tecnologie MT sono basate sulla comprensione semantica del testo e non sono ancora sufficientemente mature per le traduzioni professionali; in alcuni casi possono essere utilizzate per velocizzare il processo di traduzione di grandi volumi di testo, ma richiedono comunque una revisione umana delle traduzioni fatte automaticamente. In genere i sistemi di MT richiedono una configurazione piuttosto laboriosa per ogni combinazione linguistica (lingua sorgente / lingua di destinazione).

Caratteristiche dei sistemi basati su TM

I sistemi basati su TM sono usualmente costituiti da varie componenti e/o funzioni, ciascuna delle quali ha scopi ben precisi.

Una componente importante è quella che permette di estrarre il testo da tradurre dai formati originali e di prepararlo in modo che possa essere successivamente elaborato nell'ambiente di traduzione; dopo la traduzione questa componente ha anche la funzione di reinserire il testo tradotto nel formato originale. Ad esempio, se vogliamo tradurre un documento di Microsoft Word dobbiamo farlo elaborare dalla componente che ne estrae il testo da tradurre e lo prepara in un formato più o meno standard su cui lavorerà il traduttore; quando la traduzione è pronta ci sarà una componente in grado di inserire le traduzioni nel documento Word originale in modo da restituirci, alla fine del processo, il documento tradotto.

I sistemi disponibili sul mercato sono in grado di elaborare una vasta gamma di formati originali; tra questi, per esempio, molti formati di Microsoft Office (Word, Excel e PowerPoint), i formati dei più diffusi software di impaginazione (Adobe InDesign, Adobe FrameMaker, Quark Express ecc.), i formati con tag come HTML, XML, SGML ecc.

Naturalmente una componente essenziale è l'ambiente di traduzione nel quale il traduttore vede il testo da tradurre e inserisce la corrispondente traduzione; tale ambiente è in grado di confrontare ogni frase da tradurre con il contenuto della TM e di proporre al traduttore la traduzione della stessa frase o di frasi simili. Ogni nuova traduzione viene inserita nella TM in modo da potere essere riutilizzata successivamente. Nell'ambiente di traduzione di solito sono disponibili suggerimenti terminologici e strumenti per il rilevamento degli errori formali ovvero strumenti che facilitino il controllo e l'assicurazione della qualità (QA check).

Altra componente fondamentale per l'industria della traduzione è quella che permette di analizzare e quantificare il testo da tradurre in modo che sia possibile fare una stima dei costi e dei tempi di esecuzione di una traduzione. Usualmente questi strumenti forniscono un conteggio dettagliato che tiene conto delle ripetizioni e del recupero dalla TM. L'unità di misura più comune è la parola ma i conteggi possono essere espressi anche in caratteri o righe standard (ovvero righe di un certo numero di caratteri predefinito, tipicamente da 50 a 55).

Estrazione del testo da tradurre

Vediamo ora un poco più in dettaglio gli aspetti rilevanti di questa operazione.

Si tenga presente che il presupposto fondamentale per l'uso delle memorie di traduzione è quello di tradurre frasi di senso compiuto in modo da assicurare la corrispondenza di significato tra la frase nella lingua sorgente e la frase nella lingua di destinazione.

Uno dei compiti della componente che si occupa dell'estrazione del testo è quella di individuare appunto le frasi di senso compiuto; questa operazione viene definita segmentazione del testo. I sistemi attualmente disponibili sul mercato, però, non riconoscono le frasi di senso compiuto, ovvero i segmenti, in base al significato ma in base alle regole di punteggiatura proprie delle varie lingue. Quindi per ogni lingua è necessario disporre di un insieme di regole di segmentazione che, solitamente, sono già disponibili nel software, ma che possono anche essere modificate.

Software diversi utilizzano regole di segmentazione diverse; alcuni, ad esempio, segmentano sui due punti (":") mentre altri no. Tutti però segmentano sul segno di fine paragrafo ("a capo"). Segmentare sul punto (".") può essere problematico nel caso di un testo sorgente che contiene molte abbreviazioni.

Ad esempio, può essere un problema segmentare correttamente un testo come il seguente:

"… giusto il combinato disposto dell'art. XXX, comma 4°, c.c. e degli artt. YYY, comma 1° e ZZZ c.p.c. come modificati dalla legge XX.YY.ZZZZ, n. XXX e dagli artt. YY ss, D. Lgs. XXX.YY.ZZZ, n. XX, dall'art. YY D. Lgs. XX.YY.ZZZZ n. XX."

Se non istruita appositamente mediante eccezioni alle regole di segmentazione, la componente che estrae il testo potrebbe spezzarlo in corrispondenza di ogni punto seguito da spazio, per esempio, su "art.", "artt.", "c.c.", "D.", "Lgs." ecc.

Nell'ambiente di traduzione normalmente è possibile ricomporre frasi spezzate inopportunamente, ma ciò può risultare dispersivo e fastidioso per il traduttore.

Un altro aspetto critico nell'estrazione del testo da tradurre è la gestione delle informazioni di formattazione in linea ovvero all'interno di un segmento. In altre parole una frase di senso compiuto può contenere, per esempio, una o più parole in grassetto oppure in corsivo o sottolineate ecc.

È importante che nell'ambiente di traduzione si possa tenere conto della formattazione in linea e riportarla correttamente nella traduzione. Ovvero se, per esempio, nel testo sorgente c'è una parola in grassetto, nella traduzione la parola corrispondente deve essere in grassetto.

Ogni software basato su TM ha una propria convenzione per la rappresentazione delle informazioni di cambio di formato e queste vengono tenute in considerazione nei confronti tra segmenti.

Anche se è possibile passare memorie di traduzione da un software CAT a un altro, il fatto che ogni software abbia proprie convenzioni per quel che riguarda le regole di segmentazione e per la rappresentazione delle informazioni di cambio formato, può determinare una riduzione del recupero anche consistente.

La seguente tabella mostra qualche dettaglio sulle diversità dei criteri di segmentazione standard tra i più diffusi software basati su memorie di traduzione (si fa riferimento alle versioni sul mercato nel 2008).


Fine segmento

Trados

Transit

Déjà Vu

SDLX

Across

Due punti

no

no

Punto e virgola

no

no

no

Tabulazione

no

no

no

no

Interruzione di riga

no

no

sì in Word no in PPT

sì in Word no in PPT

no



Conteggio delle parole da tradurre

Il conteggio delle parole da tradurre è un aspetto complesso e delicato poiché determina i costi di traduzione. Anche in questo caso ogni software ha i propri criteri. Vediamo alcuni aspetti più in dettaglio.

Un aspetto fondamentale è quello del confronto fra due frasi per stabilirne il grado di similitudine; abbiamo visto infatti che lo scopo è quello di individuare nel testo da tradurre frasi identiche ad altre che sono già state tradotte, la cui traduzione si trova in una TM.

Ad esempio, se si deve tradurre la frase "Limite superiore di regolazione dell'altezza", il software cercherà nella TM per verificare se siano già presenti questa frase e la relativa traduzione; in caso affermativo il traduttore dovrà solo verificare a colpo d'occhio che la traduzione sia corretta senza dovere intervenire in alcun modo, almeno nella maggioranza dei casi. In questo esempio, la traduzione in inglese potrebbe essere "Height adjustment upper limit".

Può essere utile verificare l'esistenza nella TM di frasi simili a quella da tradurre. Se nella TM ci fosse la frase "Limite inferiore di regolazione dell'altezza" e la relativa traduzione (che potrebbe essere "Height adjustment lower limit"), si può risparmiare tempo usando la traduzione simile e cambiando la sola parola che consente di adattare il senso della frase.

Anche in questo caso, ogni software ha criteri propri per stabilire il grado di similitudine tra due frasi, ma in generale questo viene espresso in percentuale. Le due frasi del caso citato sopra, ad esempio, potrebbero essere considerate simili all'85% da un software e al 75% da un altro.

Il risultato di un conteggio non è semplicemente un numero ma un rapporto dettagliato che comprende varie informazioni. Tra queste saranno presenti:

  • il numero totale di segmenti che, in relazione al numero di parole, può dare un'idea della granularità del testo (frasi più o meno corte).
  • il numero totale di parole che dà un'idea del volume del testo nel suo complesso
  • il numero di segmenti che si ripetono esattamente (Replicated – Segments)
  • il numero di parole in segmenti che si ripetono esattamente (Replicated – AP Words)
  • il numero di segmenti che si ripetono con un certo grado di similitudine (X% to Y% matched – Segments) organizzati in fasce
  • il numero di parole in segmenti che si ripetono con un certo grado di similitudine (X% to Y% matched – AP Words) organizzate in fasce
  • il numero di segmenti che trovano corrispondenza esatta nella TM (100% matched – Segments)
  • il numero di parole in segmenti che trovano corrispondenza esatta nella TM (100% matched – TM Words)
  • il numero di segmenti che trovano corrispondenza parziale, ovvero con un certo grado di similitudine, nella TM (X% to Y% matched – Segments) organizzati in fasce
  • il numero di parole in segmenti che trovano corrispondenza parziale, ovvero con un certo grado di similitudine, nella TM (X% to Y% matched – AP Words) organizzate in fasce
  • il numero di segmenti che non si ripetono e che non trovano corrispondenza né esatta né parziale nella TM (Untranslated – Segments)
  • il numero di parole in segmenti che non si ripetono e che non trovano corrispondenza né esatta né parziale nella TM (Untranslated – AP Words)

Segue un esempio di un rapporto di conteggio (wordcount log).

                     Segments  TM Words  AP Words  Total Percentage 
Replicated:               148         -       740    740    (15.5%) 
100% matched:             728      1614         -   1614    (33.9%) 
95% to 99% matched:        39       148        20    168     (3.5%) 
85% to 94% matched:        36        86       234    320     (6.7%) 
75% to 84% matched:       121       168       588    756    (15.9%) 
50% to 74% matched:        50        82       138    220     (4.6%) 
Untranslated:             195         -         -    944    (19.8%) 
Totals:                  1317      2098      1720   4762     

La cosa si complica ulteriormente se è necessario tradurre non un solo documento ma più di uno: alcuni software sono in grado di tenere in considerazione le ripetizioni tra un documento e l'altro mentre altri no.