LLM Engineer- CDI (H/F)
Veesion, where AI meets retail! With over 3,000 customers, international expansion and dynamic team, we're looking for our new talents to join the adventure 🚀
We usually respond within three days
Poste : Ingénieur / Chercheur Deep Learning — LLMs Multimodaux appliqués à la Vidéo (CDI ou Freelance, Full Remote possible)
Domaine : Intelligence Artificielle / Vision par Ordinateur / NLP / Multimodalité
Contexte
Veesion développe des technologies de vision par ordinateur pour détecter automatiquement des gestes de vol en rayon dans les supermarchés.
Nous ouvrons un nouveau chantier : l’application de LLMs multimodaux (MLLMs) à la compréhension de la vidéo, avec un focus sur l’analyse d’actions humaines, la compréhension fine de séquences visuelles, et le reasoning multimodal.
Missions
- Implémenter et fine-tuner des modèles LLMs multimodaux open source (ex. : Flamingo, Video-LLaVA, mPLUG-Video, etc.)
- Adapter efficacement des repositories GitHub issus de la recherche (exploitation rapide, modification agile)
- Développer des pipelines d'entraînement et d’évaluation efficaces sur des données vidéo réelles
- Concevoir des entraînements optimisés pour GPU (data pipeline performant, saturation GPU, etc.)
- Lire et implémenter des travaux de recherche récents (ACL, CVPR, NeurIPS, etc.)
- Participer à la définition de tâches de video understanding : classification d’actions, raisonnement temporel, interprétation de gestes
- Construire des métriques pertinentes et les intégrer dans la boucle d'entraînement pour suivi temps réel
Profil recherché
- 3 ans d'expérience minimum en deep learning (thèse incluse), dont au moins 1 an sur des LLMs multimodaux
- Maîtrise des concepts fondamentaux des LLMs : transformers, attention, PEFT, LoRA, prompt tuning, etc.
- Expérience concrète en modèles multimodaux texte + vidéo
- Capacité à adapter rapidement des architectures complexes à des cas d’usage spécifiques
- Bonnes intuitions sur la conception et les limites des modèles actuels
- Excellente maîtrise de PyTorch, HuggingFace, et des bonnes pratiques de recherche / prototypage rapide
- Bonne connaissance des datasets de video understanding : LVBench, VideoQA, Video-Vista, Next-QA, TVQA, TGIF-QA, etc.
- Capacité à citer et discuter les architectures récentes de MLLMs : Flamingo, Video-ChatGPT, mPLUG-Owl, Video-LLaVA, VideoCoCa, etc.
- Intérêt pour le reasoning multimodal (interprétation, chaînage, inférence causale, etc.)
- Anglais technique courant (lecture de papier, implémentation à partir de code et doc)
Bonus appréciés
- Expérience avec des modèles orientés reasoning
- Publications en conférence ou participation à des benchmarks publics (LVU Challenge, Ego4D Q&A, etc.)
- Connaissances en traitement vidéo (ffmpeg, OpenCV)
- Pratique d’outils de suivi d’expériences (W&B, TensorBoard)
- Experience en Gen AI vidéo
Stack technique pertinente
- PyTorch, HuggingFace, DeepSpeed
- OpenCV, ffmpeg
- Python 3.10+, Git, Linux, Docker
Contrat et cadre
- CDI ou freelance longue durée
- Full remote possible
- Rémunération compétitive selon expérience
Pour postuler
Envoyez votre CV (et GitHub si disponible) à [adresse email], accompagné de quelques lignes expliquant vos expériences concrètes en MLLMs, video understanding et reasoning multimodal si applicables
- Department
- Data
- Locations
- Veesion Paris
- Remote status
- Hybrid
About Veesion
At Veesion, we combine artificial intelligence (AI) applied to gesture recognition to create a unique and effective solution. Our advanced technology is designed to detect suspicious behaviour in real time, transforming safety into a seamless and secure experience for everyone.
LLM Engineer- CDI (H/F)
Veesion, where AI meets retail! With over 3,000 customers, international expansion and dynamic team, we're looking for our new talents to join the adventure 🚀
Loading application form