La linguistique comparative (4/4) : les proto-langues et l’étymologie

Comment reconstruit-on une langue ? Quelles connaissances la linguistique comparative nous donne-t-elle ?

Article écrit avec le soutien d’1 tipeur anonyme ! ❤


Sommaire

    1. Un exemple de reconstruction
    2. Les merveilles des liens étymologiques
    3. Les langues ouraliennes et indo-européennes sont-elles cousines ?
    4. Conclusion

↑ Vers l’article précédent.

Comme dirait Max Bird : reprenons depuis le début. Dans le premier article de la série, j’ai dit pourquoi les langues évoluent. Dans le second, j’ai détaillé comment. Dans le troisième, j’ai expliqué comment on simulait leur évolution. Maintenant, je vais vous dire ce qu’on fait de toutes ces connaissances en pratique, en vous parlant de l’application scientifique la plus rigoureuse de la linguistique comparative : l’exploration du passé des langues.

En trois sections, je vais présenter trois façons de considérer les avancées permises par la linguistique (sachant qu’il y en aurait plein d’autres), ainsi que certains phénomènes avec lesquels les linguistes doivent composer dans leurs recherches, tout en essayant (moi, pas eux) de vous faire un peu rêver avec.


15. Un exemple de reconstruction

Cela fait un moment que je vous parle de reconstruire des langues. Les proto-langues comme le proto-indo-européen font partie de ces reconstructions, mais elles semblent très abstraites – elles le sont restées longtemps pour moi. Alors voici une illustration fictive, mais concrète.

Le proto-indo-européen est transcrit dans une orthographe inspirée de l’alphabet phonétique. L’astérisque indique une forme hypothétique (ce qui est le cas de tous les mots reconstruits ou écrits volontairement faux à des fins illustratives).

Inventons un scénario. Admettons qu’on n’ait aucune trace du latin. Imaginons que pas un seul écrit ne nous en soit parvenu. On ne sait pas comment il était écrit ni comment il se prononçait. Tout ce qu’on a, ce sont ses descendants ; il y en a des dizaines, mais pour l’exemple, je vais prendre l’espagnol, le français et l’italien.

  1. Première constatation du linguiste : des mots sont proches d’une langue à l’autre. Trop de mots pour qu’ils soient seulement des emprunts, surtout que ce sont souvent des mots courants. D’ailleurs, la morphologie est très similaire : les conjugaisons et les genres utilisent de toute évidence une base commune. Bref, en admettant que le latin soit inconnu de notre linguiste, il aura tôt fait de comprendre que l’espagnol, le français et l’italien sont apparentés : ils dérivent d’une même langue. Reste à savoir à quoi elle ressemblait.
  2. Première question du linguiste : notre ami scientifique prend le mot ”flamme” en français. Il essaye d’imaginer à quoi pouvait ressembler le mot il y a 2.000 ans. Il sait que du proto-indo-européen au germanique, le son /p/ est parfois devenu /f/, alors pouvait-ce commencer par un P ? Ce genre de questions est futile tant qu’il n’y aucune preuve pour l’appuyer. Il pourrait se perdre en tergiversations, imaginant que le double M vient de , le L de et le d’un qui se serait dénaturé parce qu’inaccentué. De cette manière, il peut imaginer le mot latin *prambo, et c’est une possibilité, parce qu’il a constitué son exemple à partir de phénomènes diachroniques déjà attestés ailleurs. Mais rien ne l’appuie. Il ne peut rien faire avec une seule langue et sa tentative de reconstruction ne vaut rien.
  3. Premier réflexe du linguiste : il prend le mot italien ”fiamma” en plus du français ”flamme”, et cherche de quoi les deux peuvent dériver de façon cohérente. Il se dit que le du mot italien et le du mot français doivent avoir une origine commune, mais sa théorie initiale du (*prambo) ne colle pas ; peut difficilement devenir (c’est peu attesté ailleurs). Par contre, le peut très bien avoir été conservé du latin jusqu’au français, et il a pu devenir en italien.
  4. Premières conclusions du linguiste : le linguiste porte maintenant son regard sur le mot espagnol, ”llama”. Le double L se prononce /ʎ/, ce qui est assez exotique mais s’explique quand même avec son hypothèse d’un initial en latin. Il se dit aussi que du fait que l’italien et l’espagnol partagent la terminaison -a, il est probable que cela ait été la terminaison latine du mot. Fort de ses résultats, le linguiste va appliquer une vraie méthode scientifique et s’en tenir à ce qu’il sait pour sûr : *flamma est pour le moment la réponse la plus probable.

Mon exemple est TRÈS minimaliste et j’ai utilisé de nombreux raccourcis ; pour que notre ami linguiste établisse avec certitude que *flamma est bien l’ancêtre commun de ”flamme”, ”fiamma” et ”llama” (et c’est bien le cas !), il faudra qu’il compare de nombreuses autres langues cousines, de sorte à éliminer jusqu’au moindre doute. Souvent, ce n’est d’ailleurs pas que la diachronie phonétique qui est en jeu (ce qui peut déjà être problématique quand des sons d’origine différente fusionnent avec le temps). Le mot peut avoir été hérité dans certains cas d’une forme décliné, avoir changé de genre, avoir transité par une langue intermédiaire, ou même faire figure d’exception pure et simple, entre des dizaines d’autres phénomènes ”parasites” (j’ai notamment exclu l’accent tonique de ma démonstration).

Les mots émergent du chaos…

Par exemple, llama” et ”flama” sont synonymes en espagnols, mais ce dernier ne suit pas les règles diachroniques régulières de la prononciation du latin en Espagne. Pourquoi ? Parce qu’il a été emprunté après que les changements phonétiques se sont produits.

De plus, il faut connaître les principes de la phonétique pour établir une hiérarchie de probabilités parmi une série de changements possibles, ce qu’on établit sur la base de très nombreux mots, et non un seul comme dans mon exemple. Enfin, dans la plupart de vrais cas, on a des bribes de textes qui nous guident dans la reconstruction, faute de nous donner toutes les clés.

Pour conclure sur la reconstruction, je vais autociter un extrait de mon premier article, qui, je l’espère, prendra ici tout son sens :

On ne sait pas comment cette langue était parce qu’on n’en a aucune trace, mais on sait comment elle devait être pour que tous ses descendants aient des particularités cohérentes entre elles.

L’avantage de s’approcher ainsi de la vérité, c’est que notre savoir s’étend dans toutes les directions temporelles et géographiques, de sorte qu’à son tour, la linguistique peut apporter des indices à d’autres sciences.


16. Les merveilles des liens étymologiques

On ne se doute pas des liens qu’on peut faire d’une langue à l’autre rien qu’avec l’étymologie. Parfois, j’explore le Wiktionnaire à la découverte des cognats, ces mots qui sont liés d’une langue à l’autre par leur origine. J’en donne quelques exemples dans mon format ”L’étrange histoire d’un mot”, mais cette fois-ci, je vais vous guider sur tout le chemin que j’ai parcouru, un jour, dans mon émerveillement comparatif, à partir du mot turc ”kırmızı” qui signifie ”rouge”.

Ce mot a été emprunté à l’arabe ”قرمز” (”qirmiz)”, de même sens, mais signifiant aussi ”kermes” (un genre de cochenille), car on produisait de la teinture rouge en écrasant cet insecte.

Le mot arabe avait été emprunté au persan ”کرمست” (”kermest”), qui dérivait du proto-indo-européen ”*kʷŕ̥mis” signifiant ”ver”, dont il existait la forme ”*wr̥mis”, possiblement dérivée de ”*wer-”, ”tourner” (mais qui pouvait aussi vouloir dire ”brûler”, d’où le russe ”вар” – ”var” –, ”goudron”, ou ”écouter” – d’où l’anglais ”ward”).

La racine ”*wr̥mis” a donné le proto-germanique ”*wurmiz” (d’où par exemple l’anglais ”worm” et le suédois ”orm” de même sens) mais aussi le latin ”vermis” qui a donné le français ”ver”.

Le mot ”vermis” avait pour diminutif ”vermiculus” signifiant ”vermisseau” et qui a donné ”vermeil”, dont a dérivé ”vermillon” pour une sorte de couleur rouge. L’étymologie implique aussi la cochenille.

À quelques milliers de kilomètres et d’années d’écart, alors que les racines ont traversé trois familles de langues différentes (turques, indo-européennes et sémitiques), le français ”vermillon” et le turc ”kırmızı” ont non seulement la même origine (ce sont des cognats) mais aussi la même étymologie et le même sens !


17. Les langues ouraliennes et indo-européennes sont-elles cousines ?

Les principales langues ouraliennes sont le finnois, l’estonien et le hongrois, et elles n’ont rien à voir avec les langues indo-européennes comme le français. Quoique…

Comparer les langues nous éclaire sur leurs ancêtres communs : on a parlé du latin qui est l’ancêtre des langues romanes, et du proto-européen qui est l’ancêtre des langues romanes et germaniques à la fois. Plus on va loin, plus c’est vaste et flou.

On ignore si le langage a un ou plusieurs foyers d’origine et on ne le saura sans doute jamais (voir la vidéo de Linguisticae en bas). Peut-être toutes les langues du monde sont-elles apparentées. On sait juste que des langues sont parfois beaucoup trop éloignées de nos jours pour être rapprochées d’une quelconque manière (les langues indo-européennes et nigéro-congolaises par exemple). Mais quelquefois, on a un doute. Peut-être que les langues ouraliennes et indo-européennes ont un ancêtre commun qui n’est pas si éloigné que ça ; il pourrait remonter à -3.500 (-2.500 au minimum). On a de forts soupçons mais… on ne peut pas le prouver.

C’est la limite de la linguistique comparative, illustrée par cette théorie dont la clé se tient juste derrière l’horizon : les langues ouraliennes présentent des correspondances phonétiques troublantes avec les langues indo-européennes, et les pronoms semblent liés.

Les emprunts sont un piège, car on sait que les peuples de l’Oural et les Germaniques ont longtemps échangé avant l’Antiquité, de sorte que leur vocabulaire partage des mots depuis longtemps sans que cela prouve leur apparentement. Toutefois, il est improbable qu’un pronom soit emprunté d’une langue à une autre…


18. Conclusion

La linguistique évolutive, qu’elle soit futurologique, historique ou comparative, est soumise à la loi du chaos : aucun modèle informatique ne pourra jamais cerner l’ensemble des facteurs qui influent sur la validation ou l’obsolétisation des variations langagières, ni expliquer dans quelles conditions exactes celles-ci se produisent. Cela signifie que l’origine du langage et sa systématicité évolutive resteront toujours chaotiques et aléatoires d’apparence (et donc mystérieux) à nos yeux humains alors même qu’il nous est propre dans cette forme si complexe, et que c’est nous qui le forgeons constamment !

Toutefois, le succès d’un modèle peut donner lieu à des modèles plus performants qui permettront de connecter plus de langues plus adéquatement, conduisant sur le long terme à une hausse générale de la compréhension des phénomènes évolutifs de la langue.

Le langage est un organisme complexe et la science nous pousse presque à croire qu’il a sa propre volonté… Qui sait, peut-être qu’avec 1 000 abonnés, je résoudrai ces mystères tout seul ? En tout cas, merci beaucoup pour votre lecture ! Et n’oubliez pas que les commentaires sont ouverts à toute question. 😉


Sources

Les passages non sourcés viennent de connaissances personnelles héritées de sources dont j’ai perdu la trace. Je ne suis pas un spécialiste, je suis un passeur de savoir. Je m’efforce d’être juste dans tout ce que je dis mais je ne peux en aucun cas prétendre réussir à 100% !

7 commentaires

  1. Ah super intéressant, pour «kırmızı» et «vermillon» je ne savais pas ! L’arabe a des origines lexicales insoupçonnées. J’ai par exemple récemment découvert qu’il y avait un lien entre la capitale Baghdād, un anthropophage et la Bhagavadgītā. Quel rapport entre une cité mythique de l’Orient, un Homme aux mœurs alimentaires contestables et un récit hindou ? Le premier est un mot perse signifiant «don de Dieu» (dād, la racine se reconnaît, et bagh, «Dieu»), le dernier c’est en sanskrit «le chant (gītā) du Bienheureux (bhagavat)».

    Les deux viendraient d’un mot de PIE *bheh2g, signifiant «distribuer, répartir».La plosive aspirée, maintenue en sanskrit, était tombée depuis longtemps en moyen perse ( /bh/ >/b/) et la vélaire occlusive est devenue fricative (/g/ > /ɣ/). En sanskrit, भाग​ bhāga signifie aussi «part», sous-entendu la part du roi, donc la richesse. Celui qui prend la part du roi ne tarde pas à être un «bienheureux», un «fortuné» (भगवान् bhagavān), et qui mieux qu’une divinité (c’est notamment l’épithète de Krishna) pour être fortunée ? Voilà le glissement de sens terminé.

    Cette racine a donné le grec ἔφᾰγον éphagon, «j’ai reçu en partage» donc «j’ai consommé (ma part) donc «j’ai mangé, j’ai dévoré» donnant notre fameux suffixe -phage…

    Ça résume la raison pour laquelle je trouve l’étymologie passionnante^^

    Aimé par 1 personne

      1. Merci^^ mais Ber(c)k, apparemment, ce serait plutôt ch’ti: sans doute la réaction d’un organisme non-préparé à une tartine de Maroilles plongée dans la chicorée, de bon matin.

        Aimé par 1 personne

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s