Abstract : This article explores the modalities and stakes of co-operation between users and generative AIs for the production of visual content, through the lens of the body and its representations. It examines the transformation of affects, when they are managed and signified by these artifacts, aiming to uncover the sociopolitical implications of human-machine interactions. Based on fieldwork, which involves using creative methods to generate images from emotionally charged text inputs, the analysis is critical, semiotic, and socio-discursive. It offers a multidimensional and multi-scale investigation of the act of prompting, questioning what happens during its execution in terms of produced images, lived experiences, and what will happen after the reuse of these images.
Keywords : emotion, body, creativity, representation, responsible design.
Cette recherche s’inscrit dans le cadre du Laboratoire Commun MeetUX entre la Fédération de recherche Innovacs (Innovation, connaissances et société)[1] de l’Université Grenoble Alpes et l’agence Ixiade. Le projet s’appuie sur des méthodes développées par des chercheurs issus des laboratoires GRESEC, du GAEL, du CERAG et du LIG[2]. Il vise à créer une plateforme interdisciplinaire dédiée à l’innovation par l’expérience utilisateur (UX), ancrée dans les « communautés » d’« innovation » en ligne. Ce LabCom rassemble ainsi des approches issues des sciences humaines et sociales en vue de les déployer dans l’économie réelle. En particulier, les chercheur.e.s des deux premiers laboratoires, auxquels nous appartenons ou sommes associé.e.s, travaillent sur une méthode intégrant des questions liées au design des représentations affectives dans les productions numériques en croisant deux méthodologies (en sciences de l’information et de la communication et en économie expérimentale), pour mieux saisir les enjeux des méthodes qui disent tester les émotions des utilisateurs.
Nous travaillons, dans ce contexte, au développement d’une approche qualifiable en termes de « design responsable » (Henke, Martin-Juchat, 2021). Cette approche se distingue des méthodes qui tendent à objectiver, neutraliser ou instrumentaliser les émotions à des fins marchandes. À l’inverse, elle cherche à prendre en compte, préserver et restituer toute la complexité du corps et de ses expressions que sont les émotions dans les processus de conception. L’enjeu est alors de proposer une méthode de conception de supports de présentation de concepts[3], qui rende explicites les implications — souvent invisibilisées ou impensées — des affects[4] dans ces processus, et de proposer une éthique des émotions, qui ne les réduisent pas à de simples « données » dans la conception.
Assumant scientifiquement une première posture de bricolage dans la continuité des travaux de Michel de Certeau (1990 [1980]), nous avons testé, de façon exploratoire, l’IA générative Dall-E, en tentant différents prompts affectifs, c’est-à-dire chargés en affects. L’objectif était alors de tester la manière dont cette IA traite des affects verbalisés dans les prompts, afin de déterminer dans quelle mesure ces outils pourraient soutenir des ambitions de responsabilité de la méthode et sa visée systématisable. Nos requêtes tendaient vers la représentation d’émotions d’abord, puis d’émotions en relation avec des objets réels ou inventés ensuite. Ces bricolages assumés s’inscrivent dans un contexte de transformations des pratiques de production de contenu, 2023 marquant, en effet, l’entrée rapide de ces dispositifs dans les usages professionnels. Ils serviraient de sources d’inspiration, pour la retouche ou pour la création audiovisuelle.
Les affects ont accompagné ces processus expérimentaux : au niveau de l’interface, comme des textes, guidelines et guides de « bonnes pratiques » consultés en vue de perfectionner les résultats obtenus. Ces machines font de l’émotion avec, par et pour, l’utilisateur. D’un point de vue technique, elles proposent des sorties images produites à partir de leurs corpus de données, issus d’usages réels passés ; au niveau social, elles passent pour agréables et un peu magiques. Le « geste d’écriture » (Souchier et al., 2019) du prompt serait pris dans des circuits d’affects. C’est ce qui nous conduit à déconstruire les modalités de production de ces contenus au regard des rapports entre vivants et non vivants en contexte professionnel et marchand. Interroger la question affective en perspective des outils d’IA générative revient alors à se demander dans quelle mesure ces derniers con-figurent l’émotion humaine en la réifiant. Telle est notre question de recherche de départ.
Cette question au croisement d’enjeux communicationnels, anthropologiques et sémiotiques, engage une réflexion sur les affects et leurs signes dans leurs dimensions visibles, sensibles, invisibles et pourtant structurantes. Cela requiert une analyse des images suscitées en particulier, mais aussi de l’activité de prompting en général. Enfin, les circulations de ces productions dans le monde social doivent être considérées, ainsi que leur intégration dans des stratégies visant certains effets.
Notre propos, dans le cadre de cet article, est de démontrer que ces outils servent, in fine, les ambitions des industries du web ou du logiciel à capitaliser le corps et ses figures, qu’il soit donné à voir à l’écran, mis en activité devant son clavier, ou touché par un contenu visuel (Martin-Juchat, 2020). Afin de développer cette hypothèse centrale, nous proposons de le construire en présentant le protocole expérimental, qui alterne trois phases, suivi d’une analyse sémio et socio-discursive de dispositifs. Cette méthodologie sera explicitée dans la première partie (1). Nous aborderons la question affective à plusieurs niveaux. La représentation des affects par les IAs génératives s’appuie pour commencer sur des conceptions stéréotypées qu’elles naturalisent (2). Le prompt en tant que geste est ensuite traversé par des enjeux de pouvoir, masqués par des jeux d’illusion et d’enchantement (Winkin, 2002) (3). Enfin, ces outils prescrivent un format d’écriture qui repose sur de la co-opération, cognitive et axiologique (4).
UNE APPROCHE EXPÉRIENTIELLE PUIS CRITIQUE DES ARTEFACTS GÉNÉRATIFS
Dans un premier temps, adopter une démarche d’usager d’IA génératives à partir d’une posture inspirée de la pragmatique qui valorise l’abduction et la sérendipité (Catellin, 2004) a prévenu aux préconceptions que l’on pouvait avoir à leur égard. Dans un second temps, pour analyser et comprendre leur prise en charge des affects et du corps, nous avons déployé une méthode sémio et sociotechnique cherchant à intégrer, sans les neutraliser, les expérimentations. Empruntant à Olivier Ertzscheid sa terminologie, nous parlerons d’« artefacts génératifs » afin de ne pas « tout subsumer derrière le concept-écran d’une “intelligence artificielle” » (2023, en ligne).
La phase expérientielle, au sens pragmatique du terme, consistait à faire produire des représentations iconiques d’affects par ces artefacts. Pour éviter le piège de la monographie, les deux plus utilisés ont été testés, Dall-E 3 et Midjourney (le premier dans le cadre de son accès gratuit, et le second d’un abonnement payant, et tous à partir de prompts en anglais, plus rarement en français, selon la recommandation des discours). Une première série a été effectuée en décembre 2023, uniquement avec Dall-E. À partir de celle-ci, nous avons construit un protocole plus fin pour une deuxième phase, réalisée en mai et juin 2024, intégrant les deux dispositifs.
L’objectif de cette étude a été d’observer la représentation des émotions par des artefacts génératifs à partir de prompts textuels. Pour cela, nous avons élaboré des « prompts affectifs », simples et systématiques dans leur formulation. Par ce syntagme, nous entendons des entrées textuelles brèves et explicites, conçues pour déclencher des générations d’images où l’affect doit être le sujet ou le comportement principal. Ces textes possèdent une dimension affective parce qu’ils mentionnent directement une émotion ou prennent pour sujet un objet supposé chargé émotionnellement. Pour construire cette approche, nous nous sommes tournés vers les modèles issus de la psychologie sociale, reconnus en Occident, où les émotions sont qualifiées d’« universelles ». Nous avons alors retenu les six dites de « primaires » ou communes aux travaux de Tomkins[5], Izard[6], Plutchik[7] et Ekman[8] : la colère, le dégoût, la joie, la peur, la surprise et la tristesse. L’objectif était de constater les propositions générées en premières intentions, afin d’observer le(s) premier(s) résultat(s), sans contexte imposé, proposé(s) par la machine. Afin de creuser les visions de l’émotion « de base » portées par ces outils, nous avons ensuite rajouté des intensités variables à ces six émotions, à partir des premières images proposées[9]. Souhaitant également évaluer la cohérence au sein des images en sortie, nous avons associé, à des objets réels, des effets sensibles en apparence cohérents avec eux, puis délibérément incohérents[10]. Nous avons, enfin, inventé des concepts porteurs d’une forte charge affective, afin de tester la capacité de ces artefacts à composer à partir d’un assemblage, à priori, dysphorique de signes[11]. Les résultats étant moins probants pour cette série que pour les précédentes, les guidelines ont été observées plus finement. Seules les premières et dernières phases présentent des éléments saillants et seront présentées dans ce cadre.
Cette méthode expérimentale, au sens où elle a consisté à faire générer par les artefacts des images à analyser et non à analyser des images préexistantes, nécessite trois précisions. Premièrement, bien que nous ayons pris soin de dédier des comptes spécifiques (un par outil) à cette recherche, il est probable que, compte tenu des différentes temporalités de l’étude, ces outils aient subi des mises à jour techniques, qui ont pu influencer les résultats, de même que les recherches en ligne associées aux comptes Microsoft et Google utilisés. Dès lors, nous ne prétendons pas avoir obtenu une représentation « pure » des émotions générées par ces outils, qui serait indépendante des interactions précédentes. Pour autant, ce protocole reste conforme aux pratiques réelles : il n’y a pas de sortie image décontextualisée des recherches antérieures sur l’outil ou par l’utilisateur. Deuxièmement, les six émotions testées ne sont pas réparties de manière égale entre émotions positives et négatives (avec quatre négatives et seulement deux positives). Nous aurions pu élargir ce spectre afin d’explorer d’éventuelles différences de traitement relatives à une axiologie (positive ou négative). Toutefois, il s’agit là d’une approche occidentalo-centrée de l’émotion qui aurait, d’emblée, rajouté un biais occidental de notre part, dès l’amont du protocole. Troisièmement, nous avons volontairement choisi ces émotions en tant que stéréotypes. Bien qu’elles soient qualifiées d’« universelles », elles se distinguent par leur absence de nuance, la catégorisation formelle qu’elles imposent sur le corps et le comportement humain, ainsi que par la vision occidentale de l’émotion qu’elles véhiculent. Nous les avons sélectionnées non pour leur justesse ou leur validité théorique, mais bien pour leur popularité et leur prétention à l’universalité. Ces émotions fonctionnent ainsi comme un « à peu près » suffisant pour tester et évaluer le traitement des émotions par ces artefacts génératifs, mais n’ont, en aucun cas, valeur de vérité sur ce que sont les affects et le corps des vivants.
L’approche sémio-pragmatique, qui tient compte de leur contexte de production, convient ensuite pour l’analyse des images en sortie de ces prompts. Elle repose sur plusieurs catégories visant à la formulation de conjectures concrètes concernant les bases de données qui ont présidé, en amont, à la production des images générées. L’examen plastique de ces images, d’abord, s’attache aux couleurs, à leurs nuances et à leur intensité, en les confrontant à leurs valeurs symboliques et culturelles. De même, la composition de l’image, la dynamique des formes et leur organisation permettent d’éclairer les stéréotypes visuels et émotionnels qui traversent ces représentations. Certains éléments, tels que les accessoires, les symboles et les métaphores visuelles sont analysés comme des traces de la culture qui infuse les images : ils témoignent des influences socioculturelles des systèmes génératifs. Les personnages occupent ensuite une place centrale. Leur nature (humain, non humain, vivant, inanimé), leurs expressions faciales, leurs gestuelles et leurs postures corporelles, ainsi que leurs interactions avec les autres éléments de l’image révèlent des visions de l’émotion et des schémas interprétatifs propres aux bases de données mobilisées par les dispositifs. Deux autres aspects renforcent cette analyse. D’une part, les dysphories visuelles observées (ruptures de sens, associations incongrues), qui constituent des indices pour comprendre le fonctionnement technique des algorithmes sous un angle paradigmatique et syntagmatique. D’autre part, les valeurs connotées par les images, qu’elles soient positives ou négatives, offrent des pistes pour appréhender l’idéologie de ces dispositifs. Ces catégories permettent ainsi d’analyser les représentations sur les affects des codeurs, mais aussi les logiques de conception et d’organisation des bases de données et les modèles à l’origine de ces images. Les extraits de corpus mobilisés ont, ici, une valeur illustrative.
Nous proposons ensuite une analyse techno-sémiotique et socio-discursive des deux dispositifs testés, en ouvrant ponctuellement à d’autres. À partir des travaux sur les écrits d’écran (Souchier et al., 2019) nous nous intéressons à la façon dont l’usager se trouve, au sein de ces architextes, pris dans des rhétoriques visuelles, culturelles et émotionnelles. Celles-ci déterminent son activité d’entrée texte et de réception des images en sortie. Ce geste étant encadré par des discours, une analyse des guidelines, lignes directrices émises par les constructeurs de ces plateformes qui indiquent comment les utiliser (à destination des professionnels), et d’articles de « bonnes pratiques » est nécessaire. Cet ensemble discursif permet de mettre au jour les tendances, les imaginaires, les évidences, les implicites et les normes qui accompagnent la prise en main des IA génératives. L’articulation des deux approches vise à déconstruire le postulat, visiblement partagé, de leur légitimité à investir les affects humains, ainsi qu’à se positionner comme partenaires créatifs. Nous revendiquons, enfin, une sensibilité ethnographique. En avril 2024[12], nous avons organisé une journée interdisciplinaire et intersectorielle sur la thématique des IAs génératives et des émotions. Nous avons également monté un atelier d’usage réflexif de l’IA, avec des étudiants de Master 2 en Communication de l’Université Grenoble Alpes. Ces prolongements académiques et les discours qu’ils ont produits permettent de nuancer l’analyse du corpus.
En guise de conclusion, la méthodologie s’inscrit, comme évoqué dans l’introduction, dans une dynamique de « bricolage » (de Certeau, 1990 [1980]) expérientiel (Dewey, 1929), caractérisée par une approche inductive du terrain, une manière de composer dans les contraintes imposées et une posture de résistance face au déterminisme technologique. Le bricolage, dans ce cadre, n’est pas une stratégie d’adaptation aux contraintes, mais une manière de les interroger. Alors que l’interaction à travers les prompts — entrées textuelles discrètes et discontinues — pourrait évoquer un usage « tactique » (ibid.), mené par à-coups, notre démarche est au contraire stratégique : elle s’élabore dans les interstices des dispositifs, exploitant leurs marges et leurs logiques pour les déconstruire. Elle consiste à « faire avec » l’espace restreint des prompts et le fonctionnement algorithmique de ces artefacts pour questionner ce qu’ils révèlent et dissimulent dans leur composition. Notre « ruse » (ibid.) réside dans cette tentative de faire émerger, à travers les images produites et la répétition, la vision du monde qu’ils portent. Cette approche permet de rendre visible ce qui, dans l’usage ordinaire et ponctuel, est habituellement présent in absentia (Chasseray-Peraldy, Jeanneret, 2017) : les données engrammées et les processus qui régissent leurs assemblages en vue d’une production iconographique. Plus encore, ce « bricolage » opère comme dispositif représentatif dans un sens un peu différent de ceux présentés par Louis Marin (1981). Certes, il rend présent ce qui n’est pas visible, mais déplace l’enjeu d’institution en ce qu’il ne l’autorise ni ne le légitime : il le désigne et le vide de son pouvoir qui réside, justement, dans son caractère invisible. Cela nous conduit à observer l’écriture du prompt comme une action prise dans des contextes, ainsi qu’à interroger ce qu’il opère de façon visible, et comment il fonctionne, de façon invisible.
DES ÉMOTIONS LIMITÉES ET STÉRÉOTYPABLES SÉMIOTIQUEMENT
L’une des controverses accompagnant la massification de l’usage des artefacts génératifs dénonce leur production stéréotypée. Certaines marques, à l’instar de Dove ou de Hitch, ont même thématisé cette critique pour leur communication[13]. Les images en sortie de nos entrées textes affectives, constituées en corpus, confirment que la théorie de l’émotion qui les travaille (via les acteurs de la conception) nie la complexité des affects humains et prend pour norme un univers éminemment connoté culturellement.
La présentation d’une théorie de l’émotion
Les objets élaborés dans les cadres des IA génératives sont plutôt une présentation qu’une représentation des réalités corporelles. Est, en effet, re-présentation ce que l’on fait être à nouveau, et présentation le processus par lequel le dispositif fait exister quelque chose (selon la distinction de Krippendorff, 2012 : 147). Au sein des expérimentations, les émotions sont incarnées par des stéréotypes d’un point de vue plastique, iconique, sémantique et donc conditionnées par des représentations culturelles des émotions.
Figure 1. Des représentations stéréotypées d’affects
De gauche à droite et de haut en bas : « Anger », « Fear », « An other representation of surprise », « Joy » (Dall-3, le 27/05/2024)
Les artefacts génératifs effectuent, pour commencer, un usage stéréotypé des formes visuelles. Dans les images en sortie, chaque émotion est associée à une coloration (le noir pour la tristesse, le rouge pour la colère, des couleurs vives pour la surprise, chaudes pour la joie) (figure 1). Certains préjugés sociaux sont reconnaissables : les genres ne partagent pas les passions (la tristesse serait plutôt féminine, la colère masculine), il y aurait un âge pour la surprise et la peur (l’enfance), un pour la tristesse (l’adolescence) et un dernier pour la colère (l’âge adulte). Les propositions affectives sont endossées par des objets convenus (des déchets pour le dégoût, un gâteau pour la surprise, des fleurs ou des instruments de musique pour la joie) ; des situations, des êtres vivants ou allégoriques (un monstre pour la peur). La tristesse est, par exemple, incarnée par des filles minces, jeunes, assises sur un banc, sous la pluie. Enfin, vivants et non vivants sont émotionnellement chargés : un taureau ou un chat peuvent éprouver de la colère ou du mépris selon des lieux communs humains (un sourire, un rictus, des yeux expressifs), et un vase ou un pistolet transmettent, au sens littéral, de la tristesse ou de la joie. Selon les dispositifs, les configurations et les références varient, mais, globalement, peu de choses diffèrent.
Cet emboîtement de stéréotypes tend vers une vision occidentale, américaine ou européenne, masculine et hétéronormée des affects, des corps et des personnes. Si cette vision accepte quelques nuances, avec une diversité des origines ethniques, c’est à travers un regard qui demeure européen, simplificateur, et des codes culturels figés. La diversité semble, en outre, faire l’objet d’une intention statistique. Des leçons auraient également été tirées du constat que les IAs peuvent générer des propos racistes (Tighanimine, 2023). En ce qui concerne les présentations émotionnelles, elles sont plus pertinentes pour des Européens, ou des Américains du nord (pour qui, par exemple, un sourire renvoie davantage à la joie qu’à la gêne ou la tristesse). C’est une panoplie limitée de poncifs que ces outils déploient pour signifier l’émotion, puisqu’au-delà de deux demandes, les mêmes images reviennent, réarrangées plus ou moins subtilement.
Ces dispositifs offrent, pour conclure, sur la base d’une entrée texte de l’utilisateur, des visions de corps et d’affects qui ne reflètent en rien la réalité sensible et expressive du corps social. Ce sont plutôt leurs conditions d’élaboration, d’apprentissage et de perfectionnement qu’elles rendent manifestes, représentent.
Des représentations qui révèlent une vision du monde
Les images en sortie des entrées textes à dimension affective impliquent, en creux, une vision du monde problématique.
Sur le plan technique, les IAs génératives utilisent des réseaux neuronaux artificiels (RNA) (Moyse, 2023). De ce fait, l’émotion doit se définir comme une construction algorithmique basée sur des corrélations de données, plutôt que sur une représentation intrinsèque, ou intuitive, du corps. Ces réseaux neuronaux traitent des millions d’images et de descriptions pour créer des représentations visuelles, amalgamant divers éléments associés à l’émotion, selon les tendances observées dans leurs ensembles d’entraînement. Cela engendre des représentations parfois incohérentes, ou éloignées de l’expérience humaine directe des affects, soulignant la compréhension sensible limitée des IA génératives. Ainsi, si un visage livide, yeux fermés ou cachés par une épaisse fumée, apparaît pour le « dégoût » dans Midjourney (figure 2), c’est que, dans ses corpus, ces termes lui sont accolés. C’est moins « le dégoût » que l’agglomération de motifs associés, plus et moins directement. La composition reflète, ainsi, ce qui leur est le plus souvent associé dans leurs bases, comme un miroir partiel des corpus de données.
Figure 2. L’émotion, une construction algorithmique basée sur des corrélations de données
« Distaste » (Midjourney, le 27/05/2024)
Les affects, pour la machine, sont donc réduits à des données à traiter. Cependant, ces données sont soumises à plusieurs types de biais, dont deux particulièrement propices à la formation de stéréotypes. Le premier, le « biais de sélection », résulte du choix des données d’apprentissage, qui proviennent souvent de contextes spécifiques, reflétant des représentations culturelles partielles et limitées. Le second, le « biais d’annotation » (label bias), découle du fait que les données doivent être catégorisées par des humains, ce qui introduit des jugements influencés par les cadres cognitifs et culturels propres à chaque annotateur (Davat, 2023). Ces médiations, qui façonnent la manière dont les artefacts sont transmis à l’utilisateur, contribuent à fixer une vision du monde encodée dans les couches de traitement algorithmique (Ibid.). Ainsi, si les émotions générées par ces systèmes apparaissent souvent simplifiées, figées ou culturellement ancrées, c’est avant tout à cause des biais et des stéréotypes inhérents à ceux qui ont conçu et annoté ces données. Ce processus de stéréotypage enferme les affects dans des catégories rigides, subjectives, masquant la diversité et la complexité des expériences émotionnelles humaines.
C’est une polyphonie énonciative (Souchier, 1998) ou un agencement collectif d’énonciations (Ertzscheid, op.cit.) qui s’exprime dans chaque sortie image. Dans cet agencement, les points de vue des acteurs se mêlent, et avec eux, les stéréotypes qui les travaillent. La théorie de l’émotion que proposent ces outils repose sur ceux-là, et est encore renforcée par les modalités humaines et techniques de perfectionnement des algorithmes. Le défaut de variété dans les contenus produits laisse alors penser que les données d’apprentissage sont massivement américaines et occidentales. On suppose, en plus, que les individus annotant ces corpus, s’ils ne le sont pas, adoptent ce point de vue. En amont, on peut également renvoyer au manque de diversité des concepteurs dans la construction des bases de cette vision du monde.
La présentation du réel véhiculée par ces artefacts résulte, pour conclure, du contexte sociotechnique et économique de leurs constructions, entraînements, perfectionnements et usages. La proposition iconique de l’émotion par les artefacts génératifs est en fait une interprétation, façonnée par un ensemble de biais systémiques et culturels, reflétant une vision du monde limitée et souvent stéréotypée.
Une théorie implicite de l’émotion
Pour finir, bien que les IAs génératives n’aient pas l’idée de l’émotion, elles en produisent une. Prendre de la hauteur sur le corpus d’images permet de saisir la pensée qui les fédère.
Si l’on se réfère à la classification d’Ekman (1973), ce sont les six premières qui obtiennent de meilleurs résultats en termes de pertinence générale. En revanche, face à des sentiments plus subtils de sa liste élargie, à l’instar de la honte ou du mépris, l’outil propose des images en petit nombre, peu convaincantes, invraisemblables ou mal construites. Cela s’explique par la pluralité des situations possibles relatives à ces affects secondaires, ou à certaines variations culturelles pouvant échapper à un regard européen et français.
Cette classification est problématique en ce qu’elle opère une simplification de la multiplicité et des nuances des émotions, réduisant leur étendue (Lardellier, 2017) et leur complexité à sept catégories. Elle impose une « compréhension mécaniste et réductrice […] en négligeant les autres dimensions extéroceptives ou intéroceptives des affects » (Henke, 2021 : 69). Par exemple, les présentations ignorent que la tristesse et la colère peuvent être vécues simultanément. Ou encore, que la joie n’est pas toujours synonyme de fête ou de rêve éveillé. Ajoutons que la peur peut être ressentie en plein jour. Surtout, une passion ne saurait être uniquement définie par un visage (figure 3), ce que la majorité des images certifie pourtant. De même, au moment de traduire notre prompt en anglais, Dall-E ajoute la mention d’un visage, qui plus est, joyeux : « des personnes en colère face à des fleurs » : « angry people with happy faces and flowers » (5/07/2024). Cette approche sert des visées stratégiques de compréhension, de gestion et de travail des affects. Elle n’a d’universel que le nom : il n’y a, en effet, pas d’universalité des émotions, ni de leur expression (Corbin et al., 2016).
Figure 3. Le visage comme siège de l’émotion
De gauche à droite : « Anger », « Joy » (Midjourney, le 27/05/2024), « More Anger » (Dall-E 3, le 16/05/2024), « Sadness » (Dall-E3, le 28/05/2024)
Cela explique que, dans les images en sortie, les représentations des émotions soient tranchées et lisses. Cette approche réductrice est également sensible dans la difficulté des machines à nuancer les propositions affectives. Pour la série de prompts visant à observer la gestion de l’intensité, il n’y a pas de différence notable entre les propositions. Tout contribue à des présentations appauvries des affects, limités par des catégories préconçues, simples et caricaturales.
Ainsi, le problème des images produites avec les IAs génératives réside moins dans leur caractère stéréotypé que dans le traitement du corps qu’elles opèrent. C’est que, les usagers sont déjà attentifs aux clichés et cherchent à les éviter ou les atténuer. Contourner ce biais fait d’ailleurs l’objet de conseils dans les guides de « bonnes pratiques ». À l’inverse, l’approche universalisante des affects humains est désormais établie, naturalisée, et difficilement détectable, car banalisée. Elle s’est imposée, servant en grande partie des intérêts divers. Ces outils reprennent ainsi à leur compte, tout en la prescrivant, une définition utilitariste du corps et de ses mouvements.
En conclusion de cette phase d’analyse, les artefacts génératifs produisent du stéréotype en série et des présentations des émotions inaptes à incarner la variété des affects. Elles soumettent l’anthropos à des logiques stratégiques et idéologiques, indépassables du fait de leur ancrage culturel social. En ce sens, la co-opération entre l’être humain et la machine est l’articulation d’une énonciation individuelle, contextuelle et à la première personne, à un creuset d’énonciations secondaires, encapsulées entre les couches. La première est prise en charge par la seconde (la sortie image les tissant, plus ou moins finement, ensemble). Dans cette co-énonciation (Maingueneau, 1998 : 40), celle de l’utilisateur est écrasée par celle(s) de la machine et de sa vision du monde. Présentes dans les discours qui les accompagnent, les émotions réifiées sont ensuite au cœur d’un programme d’enchantement du geste de prompt au sein du processus d’interaction avec l’IA.
UNE CO-OPÉRATION ENCHANTÉE DANS UNE ÉCRITURE CONTRAIGNANTE
De par notre expérience de la co-opération, nous avons pu constater que les IAs génératives que nous avons utilisées suscitent de la fascination et de la frustration, de la joie, de l’assurance ou de la déception. Cela s’explique notamment par la mise en œuvre de stratégies déployées pour « enchanter » (Winkin, 2002) l’expérience qui rendent invisible, mais pas indolore, la contrainte exercée sur le geste d’écriture du prompt.
Une ingénierie de l’enchantement au cœur de la relation
Comme tout dispositif numérique, les artefacts génératifs sont intrinsèquement ludogènes et playsants (Vial, 2014). Ce playsir est exacerbé par des constructions sémio-techniques ancrant l’activité d’écriture du prompt dans le régime de l’euphorie, de la surprise et du divertissement.
Ils tirent d’abord parti de certaines propriétés du numérique identifiées comme incitant au jeu, telles que la réversibilité, la personnalisation des propositions et la fluidité (Vial, 2013). En outre, au moment de composer le texte en entrée, une rhétorique de l’étonnement et de l’affectivité se déploie dans les interfaces. Par exemple, sur Dall-E, les boutons principaux « créer » et « surprenez-moi », s’activent en rose au passage du pointeur. Une annonce contextuelle, accompagnée d’un émoji « festif », consolide ce régime par les termes explicites de « surprise » et de « joie » (figure 4). Les images sortent en quelques secondes ou minutes (selon les IAs et les formules) et le moment d’attente est travaillé pour maintenir l’attention par la sémiotisation du temps restant. Enfin, la génération possible d’un prompt au hasard, sorte de roulette russe sémiotique, tient la promesse d’un amusement. Ces gratifications fonctionnent comme des relances affectives pour l’action du prompteur.
Figure 4. Des gratifications affectives de l’action
Fonctionnalité de génération de prompt et d’image au hasard (en haut) et message contextuel accompagnant une sortie image (en bas) (Dall-E 3, le 20/06/2024)
Ces objets sont, en outre, traversés d’imaginaires. Le premier est celui de l’art, entendu comme « style pictural », présent dans le nom même « Dall-E » (Dalí). Les recommandations enjoignent à en préciser un pour la rédaction des prompts. Les IAs passent pour performantes dans cette mimèsis, et cela est soutenu par les discours des concepteurs. Les guidelines de Midjourney affirment qu’il aurait « été formé pour produire des images qui privilégient les couleurs, la composition et les formes artistiques »[14]. Le deuxième imaginaire, celui de la magie, se décline à travers un ensemble de petites formes (Candel et al., 2012) (une baguette magique sur Midjourney). Rajoutons qu’au fil de l’usage, l’utilisateur reçoit des conseils en vue d’améliorer ou de compléter automatiquement son entrée texte. Les IAs sont ainsi consacrées en enchanteurs, dont le rôle serait de faire en sorte que l’écriture ne fasse pas obstacle (Chevet, Garmon, 2019) et que la production de contenu passe pour une activité extraordinaire.
La manipulation de l’interface est donc construite comme une expérience plaisante. Ce moment est, en plus, préparé par les discours qui vantent les capacités exceptionnelles de ces dispositifs, reprenant à leur compte cette promesse de plaisir et de magie. Ces discours instituent également une injonction à une sorte de créativité ludique, fruit d’une expérience d’ajustement à l’IA.
Une idéologie de la créativité discutable
À la suite des artefacts produits par les grandes industries du web et du logiciel (Masure, 2017), la créativité est scandée par les interfaces et les discours d’escorte. Son emploi repose, ici, sur un mésusage de la langue. Leur paradigme en effet n’est pas celui de la création à partir de rien, mais du collage et de l’assemblage.
Premièrement, discours et formes médiatiques tendent à laisser penser que « générer » équivaut à « créer ». Ce glissement est visible dans les guidelines, où les deux verbes se côtoient, utilisés quasiment comme synonymes. Cela, alors que l’algorithme ne fait que recomposer. La différence est sensible pour les cas où sont entrés en texte des objets inventés, comme « une machine à imprimer le journal à domicile ». Dans ces cas (figure 5), l’outil juxtapose les mots. Nul besoin n’est ici de passer par l’émotion pour observer qu’il ne produit pas une présentation, mais compose à partir de ses corpus, dans des mises en situation variées (un salon, un bureau, de très près). Les propositions, étonnantes, peuvent prêter à sourire par leur naïveté, mais aussi, fatiguer un utilisateur ayant une idée précise en tête, qu’il ne parviendrait pas à faire sortir en image à la machine. La scène est un cadavre exquis, superposant les termes du prompt, traduits au sens littéral dans une tentative de recontextualisation. Alors que, sur l’axe paradigmatique, il y a une concordance « à peu près » avec le texte en entrée, sur l’axe syntagmatique, les éléments sont réarrangés plus ou moins finement.
Figure 5. Une rhétorique du cadavre exquis
« Représente une machine à imprimer le journal à domicile » (Dall-E 3, le 13/12/2023)
Cette confusion entre « création » et « composition » jouit d’une méconnaissance du genre d’écriture qu’est le prompting. Celui-ci relève plus de la commande, à l’instar d’un interrupteur, que de l’écriture, comme pratique culturelle. Seule la machine, en effet, a le secret de la sélection des termes.
Deuxièmement, la créativité de l’utilisateur est très limitée. Pour obtenir une sortie image convaincante, il est recommandé de suivre les guidelines des concepteurs. Lors des expérimentations, plus le prompt imitait et respectait ces indications, « meilleur » semblait le résultat. La créativité se définit ainsi à l’intérieur de la précision de la composition de l’image, de certains détails, du style. Mais aussi du contexte de diffusion, des effets recherchés et de la cible à laquelle elle s’adresse. Être créatif, ce serait s’inspirer directement d’artistes connus, réhabilitant, par là même, le plagiat.
L’inventivité, prônée par ces outils, relève de la combination et de la recombination. Pour l’utilisateur, elle renverrait à la capacité à endosser l’énonciation des acteurs et des interfaces, à la manière d’un ventriloque (Cooren, 2010) qui la rendrait audible, lisible, unifiée et vivante.
Une contrainte sur les corps des prompteurs par une énonciation imposée
Si le discours prôné par les IAs et par la documentation est une injonction à la créativité, l’outil contraint l’activité de façon systématique. Le geste est, en effet, préfiguré (Jeanneret, 2014), techniquement et discursivement.
Contrairement à la promesse d’une interaction en « langage naturel », prompter nécessiterait de maîtriser les compétences linguistiques et rhétoriques imposées par les concepteurs. Un savoir circule, qui vise à mettre du sens dans un dispositif qui en est dénué, à partir des recommandations et d’expériences personnelles. Ce savoir manipuler ou commander se construit dans divers espaces (messages contextuels, FAQ, documentation) et chaque artefact aurait ses spécificités. Les pages d’exemples de prompts, sur des sites spécialisés ou accessibles via les outils participent cependant d’un mystère : si les entrées textes en sont restituées, rien n’explique pourquoi l’un a mieux marché qu’un autre. Ce sont donc des normes discursives du « bon » (Krippendorff, 2012) prompt qui s’élaborent, et avec elles, de la bonne image — celle-ci devrait être visuellement saisissante, techniquement impeccable, et un peu étonnante.
Architextes numériques, ces dispositifs encadrent et déterminent les productions scripturaires des utilisateurs. L’écriture doit ainsi se mouler dans une énonciation : l’utilisateur est engagé à l’imitation et à adopter la bonne tournure textuelle. Aussi, s’il passe pour maîtriser la chaîne opératoire (Leroi-Gourhan, 1964), il ne fait qu’activer des motifs enregistrés dans des corpus sur lesquels il n’a pas la main. De ce point de vue, le logiciel impose ses normes et pèse sur les pratiques. L’utilisateur, lui, s’efforce de personnaliser les possibilités en choisissant les termes. Il tente de faire entrer sa propre écriture « dans un “prêt à penser” sémiotique » (Tardy, Jeanneret, 2006), mais le stock des créativités est contenu ici, comme une potentialité à actualiser ou à extraire des corpus de données.
Ainsi, le geste du prompt est soumis à des enjeux de pouvoir communicationnel, voire d’une biopolitique invisible. Ceux-ci se manifestent dans la manière dont les corps, par les pratiques d’écriture et d’auctorialité, sont influencés et régulés dans leur effectuation. Ces contraintes sont atténuées par une ingénierie de l’enchantement et une idéologie de la créativité qui soutiennent l’expérience, la rendant séduisante pour celui qui le réalise. Cette dernière promeut une vision romantique de la création, alors même que ces architextes imposent des limites et des règles pour son expression.
Un flou entoure, pour conclure, la créativité de l’action outillée par les IAs génératives. Elle est tantôt accordée à l’utilisateur, tantôt à l’outil, minimisant son caractère profondément humain (Devillers, 2020). La co-opération avec les outils d’IA introduit alors une rupture dans la définition anthropologique de la création imaginative. Avec la population et la massification de ces outils, la récupération, la ressemblance et l’imitation en sont les nouveaux moteurs. La création avec les artefacts génératifs n’est rien d’autre que du copier/coller, assumant de répéter des canons artistiques et culturels. Les IAs prescrivent ainsi un format d’écriture, qui repose sur des contraintes techniques, discursives et normatives ainsi que, pour terminer, sur une adaptation cognitive et axiologique.
UNE CO-OPÉRATION COGNITIVE ET AXIOLOGIQUE
La co-opération avec les IAs génératives s’appuie sur une relation anthropomorphique à leur égard. L’utilisateur sait bien que ce ne sont pas des êtres vivants, mais joue le jeu (Lambert, 2013) et les institue en coopérateurs. Ce faisant, il accepte d’ajuster ses propres représentations, par bricolages et concessions, laissant finalement ces dispositifs déterminer les systèmes de valeurs que ces productions vont véhiculer. Se normalise, par le jeu, un rapport de domination librement consentie d’une culture imposée des représentations du corps.
Un brouillage entre outil, assistant et créateur
Les IAs génératives passent pour des agents non humains (Ménissier, 2021) avec lesquels composer. Cette relation repose sur un travail d’humanisation de la relation homme-machine et les discours d’escorte associés, dans un contexte d’interaction néo-animiste aux objets connectés (Martin-Juchat, 2022).
Le fonctionnement (technique et sémiotique) des IA génératives rappelle celui d’artefacts numériques, dont certaines « petites formes » typiques sont reconnaissables (Candel et al., op.cit.). L’espace énonciatif des moteurs de recherche (et en particulier pour Dall-E ou Adobe Firefly, pour lesquels l’entrée texte se fait à l’intérieur d’une « barre blanche ») est identifiable. Midjourney use, lui, des cadres d’un dispositif social (Discord). L’usage massif de ChatGPT (bien que lancé quelques mois avant Midjourney) a initié les utilisateurs à leurs spécificités. Ils opèrent enfin de la même manière que les robots conversationnels implantés dans les usages, tels que Siri d’Apple ou Alexa d’Amazon (Chevet, 2023). C’est une récupération de ces « pratiques d’interactions [qui ont favorisé] le déploiement d’habitudes de coopération entre humains et objets techniques sur un mode anthropomorphique » (Martin-Juchat, 2022).
À écouter les usagers professionnels, les IAs génératives seraient de nouveaux compagnons de travail, ayant une personnalité et un talent. Les discours (notamment lors de la journée d’étude organisée en avril 2024) attestent d’une tendance à leur anthropomorphisation. Sans être dupes de leur matérialité, ils ne peuvent s’empêcher de leur prêter des qualités humaines et d’en parler comme d’un assistant-secrétaire multitâche. Cette personnification se traduit par leur établissement en acteurs (« je vais demander à Midjourney de… ») ; par la reprise de règles d’interaction spécifiques (« il faut s’adresser à Dall-E de cette façon ») ; ou encore, par des témoignages d’émotions à leur égard (« leur présence a quelque chose de rassurant »). Les utilisateurs se sentiraient tranquillisés de pouvoir y recourir comme s’ils n’étaient plus seuls dans leurs activités. Ils auraient déjà développé de nouvelles routines de travail. Sans être en charge d’un processus dans son ensemble, les IAs se verraient déléguer des tâches précises, et certains ne pourraient plus s’en passer.
C’est que, la prétention à l’usage d’un « langage naturel » pour le texte en entrée institue d’emblée un rapport humain. Le fait que, pour Midjourney, l’utilisateur s’adresse à un robot (le « Midjourney Bot »), comme s’il demandait à quelqu’un de faire quelque chose pour lui, renforce cette impression. Cela, dans la continuité de ses interactions sociales. En outre, chaque IA passe pour avoir son propre style, et il est vrai que les images générées et les banques de « bons prompts » donnent à voir des airs de ressemblance entre eux et des différences entre les dispositifs. Surtout, il y a un style IA, le « digital art », aux influences pop culture ou surréalistes, qui transcende les styles artistiques. La personnalisation des résultats et la complétion des prompts, contribuent enfin à l’impression, pour l’utilisateur, que le dispositif le connaît et l’écoute.
Les annonces qui ponctuent l’usage ajoutent une dimension affective à la relation (figure 4), attribuant à l’IA une personnalité enthousiaste, rassurante et joyeuse. Lors des expérimentations, et devant la stéréotypie des personnages, nous avons entré comme texte à DALL-E « représente un homme moche ». Le système, refusant à la première personne, a expliqué que cela allait à l’encontre de ses principes, accompagnant le message d’un smiley « mains jointes ». De même, lorsque lui est demandé de présenter « une personne joyeuse d’être entourée de déchets » (5/07/2024), celui-ci refuse. Ces échecs sont l’énonciation d’une axiologie, où la normalité serait associée à la beauté et où la joie ne saurait l’être à des déchets, tout en affirmant une éthique de la représentation. L’utilisateur est sanctionné symboliquement et passe pour ne pas en avoir lui-même. En prêtant à l’IA un code moral, ce type de réponse lui accorde une sensibilité et un droit de déterminer ce qui est, ou non, représentable.
Ces artefacts génératifs opèrent ainsi un brouillage des frontières entre vivants et non-vivants, entre outils, compagnons et secrétaires. Le rapport à leur égard varie en fonction des usages et des usagers. Cette indétermination du statut ontologique de la machine, avec les promesses qu’elle porte, prépare alors, voire facilite, les conciliations liées à son usage.
Un processus d’acceptation de la culture des bons signes attribués par la machine
Faisant travailler des étudiants de Master 2 avec les artefacts génératifs, nous avons été témoins d’un déplacement. S’ils ont apprécié créer un grand nombre de visuels ou d’animations en peu de temps, et de plutôt bonne qualité, ils ont dû remanier leurs entrées textes et n’étaient pas satisfaits des images finales. Certains ont exprimé une frustration de ne pas pouvoir faire, par la machine, ce qu’ils avaient exactement en tête, se résignant à accepter des résultats imparfaits. Cette friction avec le dispositif révèle des compromis pour l’usage de ces machines, et notamment en contexte de projet.
Le processus d’évaluation, pour un utilisateur, d’une sortie image, se déroule en deux ou trois temps. Le premier est une donation de sens. Il attribue une signification au contenu en fonction de ses propres représentations, il est co-énonciateur (Pignier, 2022) de l’image. Le second est une estimation de sa correspondance avec sa propre encyclopédie (Eco, 1979). Puisque prompter indéfiniment n’est pas tenable, il doit enfin, à un moment, arrêter d’entrer du texte, même si les résultats ne sont pas pleinement satisfaisants au regard de son attente. En contexte d’usage réel, l’utilisateur est contraint, pour des raisons de temps ou de moyens, de laisser, à la fin, l’autorité du choix des bons signes à la machine. Il est sommé d’infléchir ses propres représentations, pour les faire concorder à celles en sortie image. Alors qu’il a l’impression de « faire bouger » l’algorithme en bricolant le texte, il doit finalement lui accorder le bénéfice du dernier mot, lui concéder de décider de la présentation.
Cet ajustement cognitif s’accompagne d’un autre, culturel et axiologique. En validant l’image produite, l’utilisateur ratifie les valeurs qui la traversent. Entériner ces images revient à accepter la culture qui l’a produite et à favoriser sa circulation. On l’a vu, les artefacts génératifs dans leur développement actuel imposent une culture occidentale et américaine. L’écriture du texte en entrée contient déjà cette emprise. L’utilisateur, se soumettant aux « bonnes pratiques » de ces artefacts, admet le mode de pensée et l’idéologie qui les travaille. Il en accepte d’abord la langue, s’il compose en anglais (pour un résultat qui serait plus convaincant, car plus proche des données des corpus). Il en accueille ensuite les imaginaires, les stéréotypes et les lieux communs. Cela, quand bien même il en ferait un usage distancié ou critique. Cette « domination dans notre langue vernaculaire » (Souchier, 2012) s’exprime jusque dans le fait qu’aucune traduction à « prompter » ne s’impose. Le terme est repris, avec sa part de technique, de fascination et de mystère.
La distinction entre usages privés et récréatifs de ces machines, et usages communicationnels, en contexte de projet est, en cela, essentielle. Sitôt qu’elles sont investies d’un effet de communication, et mises en circulation, les images générées favorisent la diffusion de la culture qui la sous-tend. En ce sens, leur passage des sphères intimes à professionnelles introduit une rupture : elle rend massive l’imposition d’une vision du monde orientée.
Une neutralisation de l’alchimie du signe et des émotions
Terminons sur le rapport paradoxal des utilisateurs aux artefacts génératifs. Si leurs limites en termes de représentation sont connues, ces derniers sont néanmoins considérés comme valables pour la représentation. Cela s’explique par leur capacité à produire « vite et bien », à un faible coût économique, et par leur promesse d’augmenter le pouvoir d’action et de création de l’utilisateur (Martin-Juchat, 2022). Le tour de force de ces artefacts consiste à faire croire qu’ils sont, malgré tout, bons pour la représentation (Garmon, Candel, 2021). Cette croyance repose sur des discours d’accompagnement et une prétention à mettre en signes la pensée de l’utilisateur, qui s’accompagne d’un processus de neutralisation d’attributs proprement humains.
Dans les discours, cette promesse est clairement formulée : les IAs génératives permettraient de « donner vie » à l’entrée texte. Avec elle, l’utilisateur pourrait laisser libre cours à son imagination, rendre présent l’irreprésentable. C’est sans compter la médiation de l’artefact, qui transforme le signe sur la base de données orientées et des traces des entrées textes passées, tout en conditionnant son émergence et lui imposant, finalement, des signifiés. Corrélativement, surtout, une désubstantification du signe et des émotions s’opère.
Figure 6. Une approche désubstantifiée de l’émotion
« Pistolet à glace et joie » (Dall-E, le 13/12/2023)
Les expérimentations ont, en effet, montré des signes des émotions vidées de leur contenu. Pour l’appréhender, intéressons-nous à un cas particulier, visuellement saisissant, mais sémantiquement incohérent. Pour comprendre l’opérativité des artefacts génératifs sur le signe, il convient, en effet, d’analyser très finement, au niveau de l’image elle-même, le devenir de l’émotion. Dans cette image (figure 6), la joie est signifiée par des signes qui renvoient à l’enfance. Un pistolet jaune occupe le centre de l’image, avec un smiley « » sur la crosse, proposant un visage heureux. Des boules de glace sont disposées le long du canon, qui semble, lui, envoyer des projectiles colorés aux formes de portemines. Le fond de l’image est composé de nuages blancs sur fond bleu, des cônes de glace et des boules jonchent le sol. Les formes arrondies, les couleurs brillantes et vives, créent une atmosphère de fête, voire de fête foraine. On peut supposer que, dans les corpus de données, la joie est associée à des termes comme sourire, couleur, enfance. Le pistolet à glace, objet sans référent réel, est composé à partir d’un vrai pistolet.
Pour la machine, l’émotion-chose est tout à la fois un symbole, une tonalité, une coloration. C’est un signe visuel chargé, qui se déploie dans des éléments de natures différentes qui sont support, expression et transmetteur de l’émotion. Bien que le résultat soit visuellement convaincant, quelque chose manque, qui réside dans l’absence de compréhension des émotions et de leur caractère dynamique. Ici, l’émotion figurée est décontextualisée, sans objet ni sujet. En outre, « pistolet » est associé naturellement à « joie », le pistolet est la joie. L’émotion est transmutée en signe statique, sémiotique, décontextualisé et réduit à un signe dénué de signification.
Les artefacts génératifs engagent ainsi à faire coller les affects (Hochschild, 2017) à des formats sémiotiques. Ils déploient un régime où les affects sont transformés en données, rationalisés, modélisés, infléchis. Dans la mesure où le corps est un motif de prédilection des IA génératives, utiliser les images en sortie revient ainsi à consentir que la complexité des figures du corps en général et de l’émotion humaine en particulier soit déléguée à des machines ayant leur propre axiologie.
L’erreur, quant à la façon d’appréhender l’activité opératoire des IA génératives, consisterait donc à considérer que celles-ci ne font « que » traduire, de façon orientée, en sortie image l’entrée texte de l’utilisateur. Le pouvoir de ces artefacts réside dans leur capacité à désubstantifier les signes pour les charger de significations standardisées et mimétiques des actions passées. Avec elles, le signe tourne en boucle.
CONCLUSION : LE COÛT SOCIO-POLITIQUE DE L'USAGE DES IA, QUELLES PRESPECTIVES ?
Dans le cadre de notre recherche, nous avons expérimenté une co-opération avec des dispositifs à base d’IA qui engage une délégation énonciative, sémiotique et axiologique.
En testant ces IA, en focalisant nos analyses sur des corpus d’images, de captures d’écran et de discours, et en les articulant ensemble, nous avons ouvert la boîte noire des usages des artefacts génératifs. Notre méthode révèle la manière dont les dispositifs numériques qui, se présentant comme transparents, déterminent les conditions de production et d’interprétation des artefacts. Elle rend sensible leur opérativité, montrant comment ils façonnent et contraignent les expériences cognitives et affectives proposées — imposées — aux utilisateurs et rend visible et analysable à quel point ils sont structurants. Dans cette perspective, le « bricolage » est destiné à déconstruire le pouvoir des dispositifs numériques et à rendre visible leur action de médiation, qui conditionne les modes d’accès à l’information et influence les formes de représentation et d’expérience. L’enjeu est de restituer cette présence structurante, souvent dissimulée sous l’apparente fluidité des interactions.
Cette approche s’inscrit également dans la conviction pragmatique de l’importance des contextes dans lesquels les expériences humaines prennent sens. En nous dotant de ces « cadres d’expérience » (Dewey, 1929), nous avons interprété le prompting comme activité signifiante, tout en restant ouverts à d’éventuels imprévus. La mise en situation permet de passer de l’interprétation au ressenti, et de dépasser les représentations (Ménissier, Martin-Juchat, 2017) ou savoirs situés, issus de nos différents ancrages épistémologiques.
Les nouvelles matérialités plurisémiotiques, la complexité de l’énonciation et le fonctionnement technique des artefacts génératifs, conduisent finalement à penser qu’ils mobilisent des contraintes plutôt architecturales et combinatoires que scripturaires. D’une part, la co-opération écrase l’énonciation de l’utilisateur par celle, dominante, de la machine et de sa vision du monde. D’autre part, elle redéfinit l’acte créatif comme une ré-énonciation systématique. L’ensemble des acteurs et de processus engagés, de façon automatique et invisible dans l’effectuation du geste de prompting, présidant et gouvernant à son expression et à son inscription, montre ainsi les limites de l’approche scripto-centrée de la théorie de l’écriture pour se saisir de ce geste (Garmon, 2023). Compte tenu de la pluralité des énonciateurs que condense, par effet de ventriloquie (Cooren, op.cit.), le prompt de l’usager, se pose également la question de l’auctorialité : à qui appartient le texte et l’image, et qui est en est l’auteur ?
Terminons sur les implications et perspectives politiques de ces co-opérations. En acceptant les contenus générés par ces artefacts, l’utilisateur confie ses choix à une culture avec ses impensés et ses limites. Jouer le jeu de l’anthropomorphisme a un coût, qui n’est pas tant de prêter des caractères et des qualités humaines à une machine, mais plutôt de lui accorder un pouvoir politique et quasi institutionnel. Si cela se concrétise dans la mise en circulation des images produites, c’est une délégation du primat du sens qui, en amont, s’est opérée. Le glissement vers une délégation d’autorité décisionnelle à la machine est en route, déjà présent via le mode plaisant de la créativité, de la facilité et du temps gagné.
BIBLIOGRAPHIE
Candel É., Jeanne-Perrier V., Souchier E. (2012). Petites formes, grands desseins. D’une grammaire des énoncés éditoriaux à la standardisation des écritures. L’économie des écritures sur le web, Paris, Hermès-Lavoisier, 135-166.
Catellin, S. (2004). L’abduction : une pratique de la découverte scientifique et littéraire. Hermès, La Revue, 39, 179-185. https://doi.org/10.4267/2042/9480.
de Certeau M. (1990 [1980]). L’invention du quotidien t.1. Arts de faire, Paris, Gallimard.
Chasseray-Peraldi, P., & Jeanneret, Y. (2017). Partout et nulle part. In B. Galinon-Melenec (éd.), L’Homme-trace (1). CNRS Éditions. https://doi.org/10.4000/books.editionscnrs.29842.
Chevet, C., Garmon, I. (2019). Le geste et la parole à l’ère du numérique : de quoi le swipe et la commande vocale sont-ils l’énonciation ? Sur les gestualités énonciatives dans les interfaces naturelles. MEI - Médiation et information, 131-144.
Chevet, C. (2023). « “L’interaction homme-machine” : un système d’écritures qui fait monde ». Thèse de doctorat en Sciences de l’information et de la communication. CELSA, Sorbonne Université.
Cooren, F. (2010). Ventriloquie, performativité et communication : Ou comment fait-on parler les choses. Réseaux, 163, 33-54. https://doi.org/10.3917/res.163.0033
Corbin, A., Courtine, J.-J., & Vigarello, G. (Éds). (2016). Histoire des émotions (Tome 1). De l’antiquité aux lumières. Paris : Seuil.
Davat, A. (2023). Biais, intelligence artificielle et technosolutionnisme. Éthique, politique, religions, n° 22, 67-83.
Devillers, L. (2020). Les Robots émotionnels. Santé, surveillance, sexualité… : et l’éthique dans tout ça ? Éditions de l’Observatoire.
Dewey, J. (1929). La quête de la certitude. Une étude de la relation entre connaissance et action. Traduction par P. Savidan, Paris : Gallimard, 2014.
Eco, U. (1979). Lector in fabula. Le rôle du lecteur ou la coopération interprétative dans les textes narratifs. Traduction par M. Bouzaher, Éditions Grasset.
Ekman, P. (1973). Cross-cultural studies of facial expression. In Ekman, P. (Ed.), Darwin and facial expression. New York : Academic Press, 169-222.
Ertzscheid, O. (2023). GPT-3 : c’est toi le choix. Affordanceinfo, Le blog d’un maître de conférences en sciences de l’information, 2/01/2023. https://affordance.framasoft.org/2023/01/gpt-3-cest-toi-le-chat/.
Garmon, I. (2023). Les « petits gestes » dans leur anthropologie communicationnelle. Étudier la digipulation des applications. Thèse de doctorat en Sciences de l’information et de la communication, CELSA, Sorbonne Université.
Garmon, I., Candel, É. (2021). Matérialité, formes et pouvoirs de la « représentationnalité » numérique. Approche épistémologique de la représentation par le Web contemporain et ses interfaces tactiles. Interfaces numériques, 10 (1). https://doi.org/10.25965/interfaces-numeriques.4551.
Henke, N. (2021). La corporéité des affects selon le design dans les projets d’innovation : approche critique, analyse des pratiques et perspectives. Thèse en Sciences de l’information et de la communication. Université Grenoble Alpes.
Henke, N., Martin-Juchat F. (2021). « The design turn for the management of public relations: Emerging challenges for communication professionals ». ESSACHESS - Journal for Communication Studies, 14, n °1, 22.
Hochschild, A. R. (2017). Le prix des sentiments. Au cœur du travail émotionnel. La Découverte, Paris, 2017.
Izard, C. E. (1971). The face of emotion. Appleton-Century-Crofts.
Jeanneret, Y. (2014). Critique de la trivialité. Les médiations de la communication, enjeu de pouvoir, Paris, Éd. Non Standard.
Krippendorff, K. (2012). Le discours et la matérialité de ses artefacts. Communication & langages, 173, 17-42. https://doi.org/10.4074/S0336150012013026.
Lambert, F. (2013) Je sais bien mais quand même : essai pour une sémiotique des images et de la croyance. Paris : Éd. Non standard. Collection SIC, 02.
Lardellier, P. (2017). Enquête sur le business de la communication non-verbale : Une analyse critique des pseudosciences du « langage corporel », Caen, Éditions EMS.
Leroi-Gourhan, A. (1964). Le Geste et la Parole - tome 1. Paris : Albin Michel.
Lobasenko, V, LLerena et D. Llerena. (2017). Elicitation of willingness to pay for upgradeable products with calibrated auction-conjoint method. Journal of Environmental Planning and Management, 60 (11), 2036-2055.
Maingueneau, D. (1998). Analyser les textes de communication. Paris, Dunod.
Marin, L. (1981). Le Portrait du roi, Éditions de Minuit, Paris.
Martin-Juchat F. (2022). Sur le néo-animisme technologique à l’ère de l’engouement pour l’Intelligence Artificielle. Quaderni, n°105, 53‑72.
Martin-Juchat, F. (2020). L’aventure du corps. La communication corporelle, une voie vers l’émancipation. Presses Universitaires de Grenoble.
Masure, A. (2017). Design et humanités numériques. Paris, France : Éditions B42. Collection Esthétique des données, 01.
Ménissier, T. (2021). Confiance en l’intelligence artificielle et autorité des machines. Storia e Politica, 2021, 13 (2), 264-287.
Ménissier, T., Martin-Juchat F. (2017). Du somatique au politique : l’atelier de l’imaginaire. Recherches en communication, 42, 51-62. https://doi.org/10.14428/rec.v42i42.48333.
Michaud C., Joly, I. Llerena, D. et Lobasenko V. (2017). Consumers' willingness to pay for sustainable and innovative products: a choice experiment with upgradeable products. Post-Print halshs-01536689, HAL.
Moyse, G. (2023). Donnerons-nous notre langue au ChatGPT ? - L’impact de l’intelligence artificielle sur notre avenir. Le Robert.
Pignier, N. (2022). L’énonciation à l’épreuve de l’« I.A. ». Qu’est-ce qu’énoncer veut dire ? Interfaces numériques, 11 (2). https://doi.org/10.25965/interfaces-numeriques.4897.
Plutchik, R. (1970). Emotions, Evolution, and Adaptive Processes. In Arnold, M. (Ed.), Feelings and Emotions : The Loyola Symposium (pp. 1-14). New York, NY : Academic Press. https://doi.org/10.1016/B978-0-12-063550-4.50007-3
Souchier, E., Candel É., Gomez-Mejia, G. et Jeanne-Perrier, V. (2019). Le numérique comme écriture : théories et méthodes d’analyse. Paris : Armand Colin.
Souchier, E. (2012). La mémoire de l’oubli : éloge de l’aliénation. Pour une poétique de « l’infra-ordinaire ». Communication & langages, n° 172(2), 3-19. https://doi.org/10.4074/S0336150012002013.
Tardy, C., Jeanneret, Y (2006). Profondeurs de l’urgent : PowerPoint, entre immédiateté et mémoire. Communication et organisation, 29, 164-170.
Tighanimine, M. (2023). Les algorithmes sont-ils racistes ? Éléments d’analyse sociologique des discriminations en contexte numérique. Socio, 18. https://doi.org/10.4000/socio.14648.
Tomkins, S. S. (1962). Affect, imagery, consciousness, Vol. 1. The positive affects. Springer Publishing Co.
Vial, S. (2014). Pour introduire le « playsir ». Interfaces numériques, 3 (1), 149-162.
Vial, S. (2013). L’être et l’écran : Comment le numérique change la perception. Presses Universitaires de France. https://doi.org/10.3917/puf.vials.2013.01.
Winkin, Y. (2002). Propositions pour une anthropologie de l’enchantement. In : Rasse, P., Midol, N. et Triki, F.. Unité-Diversité. Les identités culturelles dans le jeu de la mondialisation. Paris, L’Harmattan, 2002, 133-143.
NOTES
[1] Ce travail a bénéficié d’une aide de l’État gérée par l’Agence Nationale de la Recherche portant la référence N° ANR-21-LCV1-0005-01. La Fédération de Recherche Innovacs est sous tutelle de l’Université Grenoble Alpes, de Grenoble INP et du CNRS.
[2] Il s’agit du Groupe de Recherche sur les Enjeux de la Communication (sciences de l’information et de la communication) ; du Laboratoire d’Économie Appliquée de Grenoble (sciences économiques) ; du Centre d’Études et de Recherches Appliquées à la Gestion (sciences de gestion) et du Laboratoire d’Informatique de Grenoble (informatique).
[3] Notre projet consiste donc à développer une méthode de conception de support visuel pour présenter un concept, soucieuse des affects et des valeurs de son porteur, respectueuse de son contexte sociotechnique. Il s’agit de croiser cette méthode avec EcoXP (Lobasenko & Llerena, 2017, C. Michaud et al., 2017), ayant elle-même pour objectif d’évaluer le consentement à payer d’un objet nouveau. Lors de ce type d’étude, comme pour, par exemple, une agence d’innovation cherchant à évaluer la réception d’un concept nouveau, une présentation de cet objet est faite à un consommateur ou utilisateur potentiel. Cette phase, souvent réalisée à partir d’un brief avec le porteur de projet et de la documentation à disposition, ne fait en général pas l’objet d’un questionnement, alors même qu’elle induit la réception (compréhension, évaluation, désirabilité…) de cet objet.
[4] Dans le cadre de cet article, le terme « affect » sera employé afin de qualifier la variété des expériences sensibles que sont les passions, pulsions, émotions, sentiments, humeurs, etc. (Martin-Juchat, 2020).
[5] Cf. Tomkins et la théorie de l’amplification (1962), reposant sur neuf émotions de base.
[6] Cf. Izard et la théorie différentielle des émotions (1971), déterminant dix émotions de base.
[7] Cf. Plutchik et le modèle « Circomplex » des émotions (1970) déterminant huit émotions de base dont dériveraient toutes les autres.
[8] Cf. Ekman, en collaboration, et la proposition de treize émotions de base (1973).
[9] Série 1 : « représente l’[émotion] » ou « [émotion] », puis « plus d’[émotion] », « encore plus d’[émotion] » et « moins d’[émotion] ». Au total, 192 images ont été générées grâce à Dall-E et 96 par Midjourney pour cette première phase de l’expérimentation.
[10] Série 2 : « [objet] + [émotion] ».
[11] Série 3 : « [concepts innovants] + [émotions] » en suivant ou non, les guidelines.
[12] « Les émotions sont-elles des données comme les autres ? Enjeux de la coopération entre les équipes créatives et les IA génératives », Journée d’étude organisée le 4/04/2024 (https://www.sfsic.org/evenement/les-emotions-sont-elles-des-donnees-comme-les-autres/).
[13] cf. « Dove détruit les stéréotypes de l’IA dans sa dernière brillante campagne », par Maxime Delmas, le 16/04/2024. (https://creapills.com/dove-the-code-ia-intelligence-artificielle-20240416) ; « Heetch tacle les clichés de l’IA sur la banlieue dans une campagne choc », par Justine M., le 8/11/2023 (https://creapills.com/heetch-cliches-banlieues-midjourney-20231108). Articles consultés le 20/06/2024.
[14] « 'The Midjourney Bot has been trained to produce images that favor artistic color, composition, and forms ». (https://docs.midjourney.com/docs/stylize). Article consulté le 20/06/2024.