Sambuc éditeur

littérature & sciences humaines

Actualités Dernières parutions Littérature Arts Encyclopédie Quiz Librairies francophones La maison Contact

Technologie | Le 26 septembre 2021, par Raphaël Deuff. Temps de lecture : cinq minutes.


Google lance la plus grande base de description de photographies

Actualité de l’intelligence artificielle

Une équipe de recherche de l’entreprise Google a rendu public, le 21 septembre dernier, un jeu de données d’images annotées, diffusé sous licence libre Creative Common. Remarquable par le nombre d’images présentées et la qualité des textes associés (dans une centaine de langues différentes), le jeu de données repose sur l’encyclopédie libre Wikipédia.


Le bien nommé « Wikipedia-based Image Text Dataset » (WIT) rassemble des images issues de la célèbre encyclopédie en ligne, assorties de leur description écrite. L’annonce a été faite par un chercheur et un ingénieur de l’équipe, Krishna Srinivasan et Karthik Raman, dans un billet publié sur le blog de Google consacré à l’intelligence artificielle (ai.googleblog.com).

Les jeux de données d’images sont un élément clé des algorithmes d’intelligence artificielle appliquée à la vision assistée par ordinateur : c’est à travers les nombreux exemples de descriptions d’images qu’un programme peut apprendre à reconnaître des objets, des lieux ou des personnes dans des photographies ou des images filmées. Comme l’indiquent les auteurs, l’usage des articles de Wikipédia pour construire le jeu de données a permis de contourner la principale difficulté de la constitution de ces vastes ensembles d’images annotées : à côté de l’annotation manuelle (de grande qualité, mais nécessairement limité dans la quantité d’images disponibles), les méthodes de construction automatisée (à partir de l’indexation des pages internet) réclamaient un travail minutieux de sélection, pour garantir la pertinence des descriptions des images recueillies.

Le jeu de données sélectionne la légende de l’image principale illustrant un article de Wikipédia, en la croisant avec l’introduction de l’article en question, le titre de la page, ou encore des métadonnées. En plus de rendre disponibles une très grande quantité d’images annotées (11,5 millions d’images et 37,5 millions de textes associés, ainsi que plus du triple de textes contextuels, contre, à titre d’exemple, 330 000 images et 1,5 millions de textes dans le jeu de données MS-COCO produit par Microsoft), le jeu de données construit par les ingénieurs de Google a le mérite de présenter les textes dans une centaine de langues différentes (contre quatre à sept langues pour le jeu de données de Microsoft). En outre, l’intégration des textes contextuels (en sus de la seule description de l’image) permettra aux chercheurs en intelligence artificielle (IA) qui utiliseront le jeu de données WIT de modéliser les effets de contexte dans le discours de description de photographies, et d’étudier plus précisément les concepts associés à une image.

En lien avec la publication du WIT, un concours a été lancé par Google sur la plateforme Kaggle, portant sur l’utilisation du jeu de données au sein de modèles d’intelligence artificielle.


Raphaël Deuff


Ressources complémentaires

Communiqué : Announcing WIT: A Wikipedia-Based Image-Text Dataset (research.google)

Ressource : WIT : Wikipedia-based Image Text Dataset (github.com)


Entités nommées fréquentes : Wikipédia, Google, WIT.


L’actualité : derniers articles

Actualités culturelles

Norvège : le Nobel de la paix décerné à l’organisation japonaise Nihon Hidankyo contre l’armement nucléaire

Image de l'article `Norvège : le Nobel de la paix décerné à l’organisation japonaise Nihon Hidankyo contre l’armement nucléaire`
Image de l'article `Norvège : le Nobel de la paix décerné à l’organisation japonaise Nihon Hidankyo contre l’armement nucléaire` © Sambuc éditeur, 2024

Le prix Nobel de la paix 2024 a été attribué à Oslo le vendredi 11 octobre à l’organisation japonaise Nihon Hidankyo, pour son engagement en faveur du désarmement nucléaire.

Actualités culturelles | Le 20 octobre 2024, par Sambuc éditeur.

Actualités culturelles

Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques

Image de l'article `Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques`
Image de l'article `Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques` © Sambuc éditeur, 2024

Le prix Nobel de littérature 2024 a été attribué, jeudi 10 octobre, à l’écrivaine coréenne Han Kang (한강), pour sa prose poétique originale et vive autour de la fragilité et des traumatismes historiques.

Actualités culturelles | Le 20 octobre 2024, par Sambuc éditeur.

Actualités culturelles

Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques

Image de l'article `Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques`
Image de l'article `Suède : la Coréenne Han Kang reçoit le Nobel de littérature pour sa prose poétique intense sur les traumatismes historiques` © Sambuc éditeur, 2024

Le prix Nobel de littérature 2024 a été attribué, jeudi 10 octobre, à l’écrivaine coréenne Han Kang (한강), pour sa prose poétique originale et vive autour de la fragilité et des traumatismes historiques.

Actualités culturelles | Le 20 octobre 2024, par Sambuc éditeur.

Rechercher un article dans l’encyclopédie...



Inscrivez-vous à la newsletter Sambuc !


Ce site utilise des cookies nécessaires à son bon fonctionnement et des cookies de mesure d’audience. Pour plus d’informations, cliquez ici.

En poursuivant votre navigation, vous consentez à l’utilisation de cookies.

Fermer