La technologie Word2vec

L’algorithme derrière l’IA conversationnelle.

Word2Vec est un algorithme d’apprentissage non supervisé développé par Google en 2013 sous la direction de Tomas Mikolov pour convertir des mots en vecteurs numériques. Ces vecteurs capturent les relations sémantiques entre les mots.

👉 Il s’agit d’un modèle d’embedding qui transforme un mot en un vecteur dense de quelques centaines de dimensions, contrairement aux représentations binaires beaucoup plus longues et creuses.

En résumé, Word2Vec est une technologie fondamentale en traitement du langage naturel qui permet de convertir des mots en vecteurs numériques tout en préservant leurs relations sémantiques.

  • Elle transforme chaque mot en une série de nombres (vecteurs) qui capture son sens et son contexte
  • Les mots similaires se retrouvent proches dans l’espace vectoriel (exemple : « chat » et « chien » auront des vecteurs proches)
  • Cette représentation permet aux modèles d’IA de « comprendre » les relations entre les mots contenus dans la question (ou prompt ou requête) qui lui est posée et de pouvoir prédire les mots que contiendra sa réponse (ou sortie).

Le principe clé est que chaque mot est défini par les mots qui l’entourent habituellement dans les textes. Par exemple, les mots « manger » et « nourriture » apparaissent souvent dans des contextes similaires, donc leurs vecteurs seront proches.

Cette technologie est l’une des briques de base qui a permis le développement des modèles de langage modernes de type ChatGPT utilisés dans l’IA conversationnelle.

Cette approche vectorielle permet également des opérations mathématiques sur les mots, par exemple :

« roi » – « homme » + « femme » = « reine »

C’est cette capacité à manipuler mathématiquement le sens des mots qui rend Word2Vec si puissant pour les applications d’IA.

Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de Tomas Mikolov.

En savoir davantage