Le balisage des données

Le balisage des données, le business qui pèse des milliards de dollars derrière les progrès de l’IA

Lorsque Lei Wang est devenue annotatrice de données il y a deux ans, son travail était relativement simple : identifier le sexe des personnes sur des photos. Mais depuis, Wang a remarqué que la complexité de ses tâches n’a cessé de croître : de l’annotation du sexe à l’annotation de l’âge, des cadres autour des objets en 2D à l’annotation en 3D, des photographies en plein jour aux scènes de nuit et dans le brouillard, etc.

Wang est âgée de 25 ans. Elle travaillait comme réceptionniste, mais lorsque son entreprise a fermé en 2017, un ami qui travaillait comme développeur d’algorithmes lui a suggéré d’explorer une nouvelle voie professionnelle dans l’annotation des données, un processus de balisage des données pour les appliquer aux systèmes d’intelligence artificielle, notamment en utilisant l’apprentissage automatique. Après s’être retrouvée au chômage, elle a décidé de tenter sa chance.

Deux ans plus tard, Wang travaille déjà comme assistante chef de projet chez Testin à Pékin. Elle commence généralement sa journée de travail en rencontrant des clients, qui sont pour la plupart des entreprises technologiques chinoises et des startups d’IA. Le client lui remet d’abord une petite fraction de l’ensemble de données à titre de test. Si les résultats sont satisfaisants, Wang reçoit l’ensemble des données. Elle le transmet ensuite à une équipe de production, généralement composée de dix partitionneurs et de trois contrôleurs. Ces équipes sont constituées dans un souci d’efficacité et peuvent, par exemple, annoter 10 000 images pour la reconnaissance des voies de circulation en huit jours environ, avec une précision de 95 %.
“Ce travail dépend entièrement de la patience, de la compréhension du marquage des données et des détails”, explique Wang, qui, comme tous les marqueurs Testin, a reçu une formation détaillée après son embauche.

Les marqueurs de données d’aujourd’hui sont parfois appelés la “main-d’œuvre de l’IA” ou les “travailleurs invisibles de l’ère de l’IA”. Ils annotent les données utilisées pour former les modèles qui nous permettent à tous de profiter de biens et de services, augmentés par les capacités d’apprentissage automatique.

Il y a trente ans, les systèmes de vision par ordinateur pouvaient à peine reconnaître des chiffres écrits à la main. Aujourd’hui, cependant, les machines dotées d’IA sont utilisées pour piloter des drones, détecter des tumeurs malignes sur des photos et vérifier des contrats juridiques. Outre les algorithmes avancés et les puissantes ressources informatiques, les ensembles de données soigneusement annotés jouent un rôle clé dans la renaissance de l’IA.

La demande croissante de données balisées a conduit à la croissance d’entreprises employant des armées de marqueurs de données expérimentés (en interne et en externe) et développant des outils d’annotation fonctionnels pour des services de balisage professionnels. La charge de travail de ces entreprises a augmenté, tout comme leur valeur marchande.

La croissance des services de balisage de données

Cet été, le balisage de données a fait la une d’une grande partie des médias grâce à Scale AI, une startup de balisage de données basée à San Francisco, qui a obtenu 100 millions de dollars lors d’un tour de financement. Fondée en 2016 par un jeune diplômé du MIT de 22 ans, Scale AI est devenue l’une des startups d’IA les plus en vogue de la Silicon Valley.

L’un des facteurs clés de la forte valeur marchande de Scale AI a été sa large gamme de services professionnels de balisage de données, en particulier pour ses clients de la conduite sans pilote : Waymo, Lyft, Zoox, Cruise et Toyota Research Institute. TechCrunch rapporte que Scale AI a mobilisé près de 30 000 employés pour baliser du texte, de l’audio, des images et des vidéos.

Mighty AI (anciennement connu sous le nom de Spare5) est une autre entreprise populaire de marquage de données. Cette société basée à Seattle a été acquise en juin par le géant du transport Uber pour une somme non divulguée ; l’achat est considéré comme l’une des étapes d’Uber dans une initiative visant à introduire la technologie de conduite de drones. Fondée en 2014, Mighty AI utilise également une énorme équipe d’annotateurs éprouvés pour baliser les données.

Cette nouvelle génération d’entreprises de balisage de données a beaucoup en commun : elles se distinguent des plateformes traditionnelles de crowdsourcing comme Amazon Mechanical Turk, en appelant leurs services “services de balisage de données gérés”, fournissant des données spécifiques à un sujet balisées en mettant l’accent sur le contrôle de la qualité. Leurs partitionneurs sont recrutés par le biais d’un processus d’embauche rigoureux dans le monde entier, suivi d’une excellente formation et d’un encadrement de premier ordre. Leurs équipes de développement internes recherchent et créent constamment de nouveaux algorithmes d’IA pour accélérer les processus d’annotation manuelle.

En plus des équipes internes de balisage des données, les entreprises technologiques et les startups du secteur de la conduite sans conducteur utilisent activement ces services de balisage guidé. Certaines entreprises du secteur de la conduite sans conducteur versent des millions de dollars chaque mois à des sociétés de balisage de données.

2019 a vu une explosion de multiples réseaux de données pour la conduite sans conducteur. Waymo, une division de Ford appelée Argo AI qui s’occupe de la conduite sans pilote, et Lyft ont mis à la disposition du public des tableaux de haute qualité pour la conduite sans pilote. C’était une bonne nouvelle pour les chercheurs des tâches de conduite sans pilote du monde entier.

La création d’un ensemble de données de haute qualité pour les voitures sans conducteur est une tâche beaucoup plus difficile que, par exemple, la création d’un tableau pour classer des images avec des chats marqués. L’ensemble de données ouvertes Waymo contient environ trois mille scènes de conduite, totalisant 16,7 heures de données vidéo, 600 000 images, environ 25 millions de boîtes de délimitation 3D et 22 millions de rectangles de délimitation 2D. Et ce n’est qu’une infime partie de l’énorme base de données fermée de Waymo sur la conduite sans pilote.

Baidu Apollo, le principal fournisseur chinois de technologie de conduite sans pilote, nous a indiqué qu’un ensemble de données de haute qualité pour la conduite sans pilote contient généralement les éléments suivants :

  • une annotation sémantique pixel par pixel ;
  • une annotation sémantique 3D ;
  • une annotation pixel par pixel des instances d’objets ;
  • une segmentation détaillée de la route
  • des trajectoires d’objets en mouvement ;
  • des informations GPS/IMO de haute précision, et ainsi de suite.

La nature même de leur activité impose aux entreprises de conduite de drones des exigences strictes en matière de qualité d’annotation. Par exemple, un tableau de données linguistiques ne peut que prédire de manière erronée un mot non censuré dans un message texte, et toute erreur dans un tableau destiné à la conduite de drones peut avoir des conséquences désastreuses sur les routes publiques.

L’année dernière, l’université de Californie à Berkeley a dévoilé le BDD100K, le plus grand réseau de données opsensor pour la conduite sans pilote à l’époque, composé de plus de cent mille scènes de conduite vidéo. L’un des principaux contributeurs de BDD100K, Fisher Yu, nous a expliqué qu’en raison des préoccupations liées à la mauvaise qualité des données fournies par les plateformes traditionnelles de crowdsourcing, l’université a confié le projet à un service géré par un tiers.

“Il est difficile pour les crowdsourcers de garantir l’exactitude des données de segmentation de haute qualité ou des rectangles de délimitation dans les ensembles de données pour la conduite sans pilote. Les entreprises ont donc tendance à s’appuyer sur des équipes internes ou des services tiers”.

  • Partager:
0 0 votes
Évaluation de l'article
S’abonner
Notification pour

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

0 Commentaires
Commentaires en ligne
Afficher tous les commentaires
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x