OmniParser, développé par Microsoft Research, est une solution qui transforme les captures d'écran d'interfaces utilisateur (par ex., une application mobile) en éléments structurés, sous forme de texte. Cet outil facilite grandement la lecture de ces interfaces par les modèles comme GPT-4V pour générer des actions précises basées sur des régions spécifiques de l'interface. En s'appuyant sur des modèles de détection et de légende, OmniParser identifie les icônes interactives et extrait les sémantiques des éléments détectés.
Tests effectués
Lors d’une série de tests, OmniParser a été principalement évalué sur des applications mobiles, mais aussi sur des logiciels d’ordinateur. Les résultats ont été extrêmement satisfaisants, avec une détection de 90 % des éléments d’interface sans ajustement particulier. En ajustant les configurations, une précision encore plus élevée a pu être atteinte.