Rechercher
  • Colin Bernet

Une révolution pour la reconnaissance d’image en entreprise en 2021 ?

Mis à jour : mars 30

OpenAI vient d’annoncer CLIP, un nouveau modèle de classification d’images qui n’a pas besoin d’être entraîné pour fonctionner sur des images spécifiques.




Il y a quelques jours, OpenAI a dévoilé deux modèles impressionnants pour le traitement de l’image, DALL-E et CLIP.


On a déjà beaucoup parlé de DALL-E [1], qui permet de générer des images à partir d’une phrase de texte, comme : “un pangolin en 3D dans une forêt”.



C’est en fait très similaire à ce que peut faire GPT-3, dont vous aviez peut-être entendu parler cet été. La différence, c’est que GPT-3 crée un texte (par exemple un article de blog) à partir d’un résumé, alors qu’ici on crée une image.


C’est plutôt rigolo, et ça pourrait être vraiment intéressant pour de l’illustration automatique.


Mais CLIP [2] a de notre point de vue une portée beaucoup plus générale, et pourrait révolutionner la reconnaissance d’image dans l’entreprise.


Actuellement, la technique la plus utilisée est le transfer learning.


Ça consiste à récupérer un réseau de neurones profond pré-entraîné par ses créateurs à classer les images du dataset ImageNet dans 1000 catégories différentes (avion, porte-conteneur, sapin, ...). Ce modèle sait déjà voir les lignes, les formes et les couleurs.


Mais en règle générale, les 1000 catégories de ImageNet ne comprennent pas les catégories intéressantes pour l’entreprise. Il faut donc montrer au modèle les catégories spécifiques au problème à résoudre.


Par exemple, pour détecter les accidents automatiquement, on va lui donner plusieurs centaines ou milliers d’images de personnes debout ou couchées, et ré-entraîner une toute petite partie du réseau. Ça nécessite de collecter des images spécifiques, et de les étiqueter à la main (“debout”, “couchée”). C’est fastidieux et c’est souvent un frein au déploiement du deep learning dans l’entreprise.


CLIP fonctionne de manière totalement différente. Le modèle est entraîné à faire la correspondance entre une image et un texte de description écrit en langage naturel. OpenAI a utilisé pour cela un dataset énorme de 400 millions d’images collectées sur internet.


Et ce qui est bien sur internet, c’est que chaque image est accompagnée d’un Alt Text, qui est affiché lorsque l’image ne peut pas être chargée. Il y a aussi souvent une légende. Pour collecter le dataset étiqueté, il suffit donc d’envoyer des robots parcourir le web pour télécharger les paires images / texte. Une tâche très simple techniquement, mais réalisée ici à très grande échelle.


En quelques sortes, Internet est une immense machine à étiqueter des images en langage naturel !


Dans toutes ces images, il y en aura beaucoup avec des personnes (ou des animaux, des personnages de BD...) couchées ou debout. Donc plus besoin de ré-entraîner avec un dataset spécifique.


De plus, le modèle obtenu est extrêmement général. Dans l’image suivante, les auteurs comparent CLIP à ResNet101 pour différents datasets :



ResNet101 a été entraîné sur ImageNet et CLIP sur les images collectées sur internet. Sur le dataset ImageNet, CLIP est aussi bon que ResNet101, avec 76% des images classées dans la bonne catégorie. Alors que CLIP n’avait jamais touché aux images d’ImageNet auparavant !


Et sur des datasets différents, CLIP conserve sa généralité, et apporte un gain considérable par rapport à ResNet101.


Pour en savoir plus, voir ci-dessous le lien vers l’article de blog, sur lequel vous pourrez trouver l’article scientifique (en anglais).


Et vous ?


La reconnaissance d'image peut être utilisée dans de nombreuses applications :

  • classification et gestion des photos

  • contrôle qualité dans la production

  • sécurité des sites

Pour en savoir plus :


CONTACTEZ-NOUS




Références :


[1] DALL-E

[2] CLIP : le blog et l’article scientifique

[3] Notre introduction technique au transfer learning