L’IA au service… de l’homogénéité

Longtemps fiables, les concordanciers s’uniformisent à l’ère de l’IA. Gain de vitesse ou appauvrissement linguistique? Un regard critique.

Pendant longtemps, les concordanciers ont occupé une place de choix dans la boîte à outils des professionnel·les de la langue. Ni dictionnaires ni traducteurs automatiques, ils permettaient d’observer la langue telle qu’elle est réellement utilisée : repérer des occurrences, analyser des cooccurrents, confirmer l’idiomaticité d’une tournure. Bref, ils aidaient à décider.

Aujourd’hui, pourtant, un malaise s’installe. Les résultats se ressemblent de plus en plus, les formulations semblent interchangeables, et l’inspiration laisse place à une impression persistante de répétition. Comme si, à force de vouloir rendre ces outils « plus intelligents », on avait fini par les rendre plus prévisibles.

Une main humaine tendue vers une main robotique sur fond turquoise.

Photo : Cash Macanaya

Le concordancier dans la pratique

Dans un processus de traduction classique, le concordancier sert à valider un choix linguistique à partir d’exemples concrets. En traduction juridique, par exemple, il permet de vérifier si l’on « intente » ou si l’on « engage » une poursuite, et dans quels contextes précis chaque formulation est privilégiée.

L’intérêt de l’outil repose alors sur la qualité de ses sources : lois, décisions judiciaires, documents ministériels, sites bilingues officiels. Des textes rédigés ou révisés par des humain·es, dans des contextes contrôlés, qui offrent une base fiable pour l’analyse.

Autrement dit, consulter un concordancier, c’était un peu comme demander conseil à un collègue expérimenté : on ne suivait pas aveuglément sa réponse, mais on lui faisait confiance pour éclairer la réflexion.

Le tournant de l’intelligence artificielle

Avec l’arrivée de l’IA générative, cette logique a commencé à changer. Les concordanciers fondés sur des corpus humains validés ont progressivement été remplacés, ou du moins enrichis, par des bases de données massives, souvent constituées de textes générés automatiquement ou aspirés du Web sans validation linguistique systématique.

À sa face même, la promesse est séduisante : plus de données, plus de rapidité, plus de résultats. En pratique, cependant, l’intégration de contenus non révisés par des humain·es a un effet direct sur la qualité linguistique des exemples proposés.

Plus problématique encore, plusieurs de ces outils semblent désormais s’alimenter à partir des mêmes corpus, recyclés et réutilisés en boucle. Résultat : une diversité apparente qui masque en réalité une homogénéité grandissante.

Une homogénéité préoccupante

L’efficacité des concordanciers « intelligents » cache donc un phénomène sournois : les mêmes tournures reviennent constamment, les mêmes choix lexicaux s’imposent, et le style devient lisse, neutre, parfois artificiel.

Pour le ou la traducteur·ice qui cherche à nuancer son propos ou à adapter son texte à un contexte précis, c’est frustrant. L’outil censé ouvrir des pistes finit par en fermer.

On pourrait comparer la situation à une recherche sur les meilleures pizzas confiée à une IA qui proposerait toujours « pepperoni-fromage ». Ce n’est pas faux; c’est même populaire, mais ce n’est jamais surprenant. On aurait espéré découvrir des options plus audacieuses : figues et prosciutto, poires et gorgonzola. Bref, autre chose que la norme.

Les symptômes sont faciles à repérer : disparition des références claires à des sources institutionnelles, réduction du nombre d’exemples distincts, phrases aux structures quasi identiques. Là où un concordancier affichait autrefois une variété de sources fiables — ministères, ONU, organismes bilingues — il n’en présente parfois plus que quelques-unes, souvent opaques.

Des conséquences sournoises

Cette homogénéisation n’est pas sans conséquences. D’abord, elle entraîne une perte de confiance envers l’outil. Lorsqu’on sait d’avance ce qu’il va proposer, le concordancier cesse d’être un instrument d’analyse pour devenir un simple générateur de phrases passe-partout.

Ensuite, elle contribue à une standardisation plus large des textes. En s’appuyant sur des formulations uniformes, on appauvrit graduellement le style, on gomme les nuances, et on participe, parfois malgré soi, à une langue de plus en plus formatée.

Face à cette réalité, plusieurs professionnel·les se tournent de nouveau vers des outils plus traditionnels : dictionnaires de cooccurrents, Antidote, corpus spécialisés, ou recherches manuelles dans des sources fiables. Ces approches demandent plus de temps, certes, mais elles offrent une richesse et une précision que les outils automatisés peinent désormais à égaler.

Conclusion

Les outils technologiques sont censés nous faire gagner du temps. Mais lorsque leur fiabilité diminue, ils nous obligent à chercher ailleurs, et souvent plus longtemps. Les concordanciers propulsés par l’IA ne sont pas inutiles, mais ils doivent être abordés avec un esprit critique renouvelé.

À l’ère de l’intelligence artificielle, la véritable valeur ajoutée du traducteur ou de la traductrice réside peut-être moins dans la rapidité que dans la capacité à reconnaître l’homogénéité… et à y résister.