Cloud & Data
Développement
Technologies
June 19, 2025

Gen AI for Data engineers

La GenAI ne remplace pas le data engineering, elle le redéfinit — et rend votre rôle plus stratégique que jamais.

Nous suivre

Je ne vois pas beaucoup de data engineers s'intéresser à ce sujet.
Pourtant c'est pas un effet de mode comme les autres. On n'a pas atteint L'AGI (Artificial General Intelligence) avec une IA 100% autonome certes ... Mais on parle là d'une technologie disruptive qui aura un impact ( social, économique, intellectuel, etc) au moins comparable à celui d'internet, si ce n'est bien plus.

Ce qui appartenait au domaine de l'impossible, il y'a quelques temps, semble à portée de main. D'énormes changements vont survenir et de grandes opportunités vont l'accompagner.

Car la GenAI vient avec de nombreux défis. Et surtout d'important défis autour de la data.

Il faut de la data pour nourrir le système. Data de qualité, data de quantité, data de variété. Mais ça, je vous l'accorde ce n'est pas une nouveauté.

Voici en tout cas 3 évolutions qui sont en train de se produire. Je développerai principalement la 3ème : le RAG qui est la plus concrète aujourd'hui.

1. La data non structurée est devenue plus accessible

Les données non structurées représentent la masse de data la plus volumineuse, mais jusque là inexploitables, surtout à grande échelle. Car à moins d'avoir des humains qui les analysent et les structurent, c'était quasi impossible.

Cette barrière vient de tomber


La révolution des transformations multimodales

• Image to Text : OCR intelligent, extraction de données depuis des factures, contrats, diagrammes

• Speech to Text : Transcription automatique d'appels clients, réunions, podcasts

• Video to Text : Analyse de contenu vidéo, extraction de métadonnées

• Et surtout Structured Text : Transformation directe en JSON, tableaux, bases de données

Spécialement pour l'OCR, on a des outils qui sont de plus en plus performants sans avoir besoin d'expertise NLP.

Impact sur vos pipelines de données

1. Sources de données étendues : Vous pouvez maintenant intégrer des sources précédemment inaccessibles

2. Enrichissement automatique : Transformation de données brutes en insights structurés

3. Preprocessing intelligent : L'IA fait le travail de nettoyage et structuration en amont

Et bien sûr, Cela ramène d'autres challenges techniques :

1. Qualité des données : Comment garantir que les données transformées sont précises et cohérentes ? - Détection d'hallucinations, d'erreurs de reconnaissance, de mauvais formatage, etc. -

2. Scalabilité : Comment gérer des volumes de données massifs ? -

3. Coûts : Comment optimiser les coûts de transformation des données ? Car ça revient vite très cher d'appeler les API des providers. - self hoster des petit modèles spécialisés ? Donc overhead infra etc etc.

Bref pas mal de challenges techniques très sympa!

2. Implémenter des process GenAI pour booster ses workflows & devenir architecte de données plus que dev ETL

On parle ici de d'automatisation qui impliquent l'IA directement dans le monitoring, l'autoréparation des pipelines.

Bon, le monitoring c'est pas nouveau, le monitoring en temps réel non plus. Avoir des alertes & des rules qui s'activent automatiquement non plus. Des algo de prédiction d'anomalies non plus.

Mais là où ça devient vraiment intéressant, c'est quand on parle d'erreur un poil plus complexes, avec réparation automatique des erreurs les plus trivials telles que :

Vous passez de "firefighter" à architecte de systèmes intelligents. L'IA gère l'opérationnel, vous vous concentrez sur la stratégie et l'innovation.

Mais encore une fois, d'autres challenges !!


1. Complexité accrue : Il faut savoir débugger l'IA qui débugge vos pipelines
2. Coûts d'API : L'automation intensive peut coûter cher en calls API; Arriver à trouver le juste milieu entre automatisation et intervention humaine.
3. Gouvernance : Comment auditer des décisions prises automatiquement par l'IA ?

Je finis probablement par l'un des sujets les plus hots du moment.

3. Le mot le plus SEXY de 2025 "AGENTIC AI" est dépendant du contexte (et donc de la data)

Vous avez sûrement entendu parler de RAG - Retreival augmenter Generation. Ce dernier a le dos dur. Tout le monde veut du RAG mais tout le monde veut aussi l'enterrer malgré lui. Sauf que force est de constater qu'il est toujours là quand on se retourne. Et pour cause!


Qu'est-ce que le RAG ?

Avant toute chose , voici à quoi ça ressemble, ce sera plus clair avec un exemple d'expliquer pourquoi les data engineers devraient se sentir concernés par ce sujet.

Les 3 raisons techniques fondamentales :

    • No access to private data : Les modèles sont entraînés sur des données publiques, mais ont besoin d'informations propriétaires qui changent constamment

   • Outdated parametric knowledge : Même avec des mises à jour fréquentes, il y a toujours un gap entre la date de coupure d'entraînement et aujourd'hui

    • Hallucinations and attribution issues : Les modèles inventent des informations plausibles mais incorrectes. Le RAG résout cela en ancrant les réponses dans des sources réelles

Pourquoi a-t-on besoin de RAG ?

"Dire que les contextes de LLM très larges (10M de tokens) vont remplacer les RAG revient à dire qu'on n'a plus besoin de disque dur parce qu'il y'a de la RAM."

1. Scalability - Le défi du Data Engineer
Votre base de connaissances d'entreprise se mesure en téraoctets ou pétaoctets, pas en tokens. Même avec des contextes de 10M tokens, vous ne voyez qu'une fraction infime de vos informations disponibles.

A2. Accuracy - Les "context cliffs"
Les fenêtres de contexte effectives sont très différentes de ce qui est annoncé. La recherche montre une dégradation des performances bien avant les limites officielles.

3. Latency - L'expérience utilisateur
Charger tout dans le contexte du modèle = temps de réponse catastrophiques. Les approches basées sur la récupération livrent des réponses plus rapides en ajoutant seulement les informations les plus pertinentes.

4. Efficiency - Coûts et performance
Traiter plus de tokens n'est pas seulement plus lent, c'est aussi extrêmement inefficace et coûteux comparé au RAG qui cible précisément ce dont vous avez besoin.

À quoi faut-il s'intéresser ?

Naive Rag, Hybrid Rag, Agentic Rag, Graph Rag, c'est en 3 ans toute une évolution qui a eu lieu. Multimodal RAG qui émerge énormement aujourd'hui avec tous les modèle multimodaux (colQwen etc)

RealTime RAG est probablement l'objectif ultime (vu la dimension realtime aujourd'hui) on veut tout, tout de suite, tout le temps.  Donc combiner des systèmes de streaming, cleaning, formatting,embedding, et bien d'autres choses.

Les défis techniques pour lesData Engineers

    1. Streaming + Vector Databases
    • Mise à jour continue des embeddings
   • Gestion de la cohérence des index
   • Optimisation des performances de recherche
   
    2. Data Freshness
   • Pipeline de mise à jour < 1 seconde
   • Versioning des connaissances
   • Cache invalidation intelligent
   

    3. Scaling des embeddings
   • Millions de documents à embedder en continu
   • Optimisation des coûts d'API
   • Parallélisation et batching intellig


Conclusion :

La GenAI n'est pas magique - elle a besoin de fondations solides.

Derrière chaque démo impressionnante d'IA se cache :
    • Des téraoctets de données nettoyées et structurées
   • Des pipelines robustes qui alimentent les modèles 24/7
   • Des architectures scalables qui supportent des millions de requêtes

Ce que ça change concrètement :
    • Vos compétences en architecture data deviennent critiques
   • Votre expertise en temps réel devient indispensable
   • Votre capacité à débugger devient stratégique (on debug maintenant l'IA qui debug nos systèmes)

La GenAI ne remplace pas le data engineering - elle le rend encore plus important.

Article par B.ERRAJI, consultant data OSSIA SONATE

Découvrez aussi

Inscrivez-vous à notre newsletter