AI Lab - Howest

Van prompt tot 3D-model: een AI-workflow voor text-to-mesh en image-to-mesh generatie

AI-modellen die automatisch 3D-modellen genereren op basis van tekst of afbeeldingen klinken als sciencefiction, maar zijn vandaag realiteit. Dankzij technieken zoals text-to-mesh en image-to-mesh kunnen digitale 3D-objecten sneller dan ooit worden gecreëerd. Dit is ideaal voor toepassingen in games, AR/VR of productvisualisatie. In deze blogpost duik ik dieper in hoe deze modellen werken, hoe goed ze presteren en welke tools momenteel beschikbaar zijn. Ik toon een volledige workflow: van input tot mesh, met concrete voorbeelden en technische inzichten. Zo krijg je een duidelijk beeld van wat er vandaag al mogelijk is, en waar de uitdagingen nog liggen.

Quick facts

/
Eén afbeelding is genoeg voor 3D-reconstructie
/
Meer dan 80% van de AI-generated meshes vereist nabewerking
/
UV-mapping ontbreekt vaak in AI-generated meshes

Wat zijn deze modellen, hoe kan ik ermee starten

Waarom text-to-mesh en image-to-mesh interessant zijn

De mogelijkheid om automatisch 3D-modellen te genereren op basis van tekst of afbeeldingen opent nieuwe deuren in uiteenlopende sectoren. Wat vroeger uren modelleren in Blender of Maya vergde, kan vandaag in enkele minuten met behulp van AI worden gerealiseerd. Dit maakt text-to-mesh en image-to-mesh technologieën bijzonder waardevol in workflows waar snelheid, iteratie en creativiteit centraal staan.

Voor game developers betekent dit dat ze sneller prototypes kunnen bouwen of placeholder-assets kunnen genereren op basis van visuele referenties of concept prompts. In AR/VR-ontwikkeling kunnen ontwikkelaars op een laagdrempelige manier interactieve 3D-content creëren die dynamisch gegenereerd wordt op basis van de context van de gebruiker.

Designers, zowel grafisch als industrieel, kunnen met deze tools ideeën visualiseren zonder zelf uitgebreide 3D-modelleringservaring nodig te hebben. Denk aan productdesign, interieurvisualisatie of virtuele kleding in een digitale paskamer. Voor hen verlaagt deze technologie de drempel tot 3D-visualisatie aanzienlijk.

Ook binnen R&D-omgevingen zijn er duidelijke voordelen. Bijvoorbeeld in simulaties, robotica of machine learning pipelines waar synthetische data nodig is: AI-gegenereerde meshes kunnen als trainingsdata dienen, of zelfs real-time aangepast worden op basis van input.

Ten slotte is er het aspect van automatisatie. In workflows waar snelheid en schaalbaarheid essentieel zijn — zoals e-commerce (product previews), digitale erfgoedconservatie of creatieve contentgeneratie — kunnen text/image-to-mesh pipelines gekoppeld worden aan andere AI-modules. Hierdoor ontstaat een bijna volledig geautomatiseerde 3D-productieketen, van prompt tot geoptimaliseerd model.

Workflow: Van prompt of afbeelding naar mesh

De kracht van deze AI-tools zit niet alleen in wat ze genereren, maar ook in hoe eenvoudig ze geïntegreerd kunnen worden in bestaande 3D-workflows. Hieronder toon ik een praktische pipeline.

Tekst-To-Mesh Workflow

Input: Beschrijvende tekstprompt

Tool: Tripo.ai (of andere bruikbare opties)

Output 3D-mesh (.obj / .gbl)

Korte technische uitleg: Hoe werken deze modellen?

Text-to-mesh en image-to-mesh modellen maken gebruik van verschillende neurale representaties en optimalisatietechnieken om van een tekstprompt of afbeelding tot een 3D-mesh te komen. De gebruikte methodes verschillen sterk in structuur, schaalbaarheid en kwaliteit van output. Hieronder overlopen we enkele kernconcepten die je helpen om deze modellen beter te begrijpen.

Volumetric Representations (NeRF-based)

Veel modellen zoals DreamFusion of Magic3D baseren zich op NeRFs (Neural Radiance Fields). Hierbij wordt een 3D-object niet gerepresenteerd als een mesh of point cloud, maar als een volumetrisch veld. Elk punt in de 3D-ruimte heeft een kleur en een dichtheid, geleerd via een neurale netwerkfunctie.

Voordeel: Continu en gedetailleerd, realistisch renderbaar via differentiable rendering.
Nadeel: Output is initieel geen mesh. Je moet een marching cubes-algoritme gebruiken om er een mesh van te maken, wat soms ruw of hol resultaat oplevert.

Point-Based & Explicit Mesh Representations

Modellen zoals Shap-E en Point-E werken rechtstreeks met punten of mesh-structuren. Ze voorspellen bijvoorbeeld een puntenwolk of mesh vertices die meteen gebruikt kunnen worden als geometry output.

Voordeel: Sneller en directer inzetbaar voor game engines of 3D-tools. Geen extra conversiestap nodig.
Nadeel: Moeilijker om fijne details of texturen te representeren, vooral bij kleinere objecten.

Diffusion Models for 3D (Latent or Rendered)

Een groeiend aantal modellen gebruikt diffusieprocessen, zoals DreamFusion doet met “Score Distillation Sampling”. Het idee: een tekstprompt wordt gebruikt in combinatie met een 2D text-to-image diffusion model (zoals Imagen of Stable Diffusion), dat beelden genereert vanuit verschillende hoeken. Deze renders worden dan gebruikt als targets om een onderliggend 3D-representatie (bv. NeRF) te optimaliseren.

Render-based supervision: De gegenereerde 3D-representatie wordt gerenderd vanuit meerdere hoeken, en die renders moeten lijken op beelden gegenereerd door het 2D-diffusiemodel. Op basis daarvan worden de 3D parameters geüpdatet.
Latent optimization: Sommige nieuwe methodes (zoals Meshy.ai) werken volledig in de latente ruimte van het diffusiemodel en vermijden expliciete renderloops, wat sneller en schaalbaarder is.

CLIP Guidance & Tekst Embedding Matching

Sommige oudere of lichtere systemen gebruiken CLIP-based loss, waarbij gerenderde beelden uit het 3D-model vergeleken worden met de oorspronkelijke tekstprompt via een taal-visie encoder zoals CLIP.

De render wordt door CLIP geëncodeerd, net als de prompt, en de cosine similarity wordt gemaximaliseerd.
Minder accuraat dan pure diffusion-supervision, maar computationeel lichter.

Vergelijking van modellen

In dit onderdeel testen we verschillende AI-tools en modellen die momenteel beschikbaar zijn voor text-to-mesh en image-to-mesh generatie. We vergelijken de resultaten op basis van dezelfde input (tekstprompt of afbeelding) om te zien hoe goed elk model presteert op vlak van detail, vormconsistentie, textuurkwaliteit en gebruiksgemak.

Tekst-To-Mesh

De volgende 3 modellen zijn gebruikt voor de tests:

📝 Prompt 1: Futuristische Plasma Blaster

"A futuristic handheld plasma blaster designed for elite space marines. The weapon features a sleek, matte-black carbon fiber body with glowing blue energy conduits running along its barrel. The front end houses a rotating tri-nozzle mechanism surrounded by copper cooling fins. Its ergonomic grip is textured with dark rubber padding and contains a small digital ammo counter screen with green LED lights. Several small warning decals and engraved serial numbers are etched into the metal near the trigger housing."

📝 Prompt 2: Organic Tree

“A large, gnarled forest tree stump with thick, moss-covered bark and multiple twisted roots sprawling outward. The top surface is uneven and cracked, with a shallow pool of rainwater reflecting light. Small mushrooms with red caps and white spots grow along the side, and a tiny hollowed-out squirrel den is visible near the base. The bark shows fine details like vertical grain lines and peeling textures, with vines hanging over one edge. The lighting emphasizes dampness and the organic complexity of the wood.”

Image-To-Mesh

De volgende 3 modellen zijn gebruikt voor de tests:

Dit zijn de 3 images die we als prompts hebben gebruikt:

Resultaten

Na het testen van meerdere prompts blijkt Tripo3D de meest consistente en indrukwekkende resultaten te leveren, zowel bij text-to-mesh als image-to-mesh. De gegenereerde modellen tonen een hoge geometrische complexiteit gecombineerd met scherpe, goed toegepaste textures. De modellen zijn doorgaans direct bruikbaar in visualisatie- of prototypingworkflows.

Hyper3D en Meshy.ai presteren vergelijkbaar, maar verschillen licht naargelang de prompt. Meshy.ai blinkt soms uit in textuurgebruik en herkenbaarheid, terwijl Hyper3D sterk is in meshstructuur. Wel vereisen beide vaak extra nabewerking als het model gebruikt wordt in een productieomgeving.

InstantMesh scoort duidelijk het laagst. Het model heeft moeite met complexe vormen en levert vaak generieke of inconsistente resultaten bij gedetailleerde input. Simpele objecten zoals meubels, potten of standaarden gaan nog net, maar verder gebruik is beperkt.

Toepassingen in de industrie

Hoewel text-to-mesh en image-to-mesh modellen vaak worden gelinkt aan creatieve sectoren zoals gaming en AR/VR, reikt hun potentieel veel verder. Ook binnen industriële omgevingen, educatie en de gezondheidszorg kunnen deze technologieën een sterke meerwaarde bieden.

Een belangrijk voorbeeld is digital twinning — het virtueel nabouwen van fysieke objecten of systemen. Met behulp van een afbeelding of tekstbeschrijving kan een AI-model snel een digitale representatie genereren van bijvoorbeeld een machineonderdeel of mechanisch systeem. Dit versnelt het ontwerpproces en maakt onderhouds- en simulatiemodellen toegankelijker.

Interactieve 3D-weergave van een tandwielsysteem:

Ook in de zorg en medische educatie kan AI-gegenereerde 3D-content een belangrijke rol spelen. Denk aan het visualiseren van complexe anatomische structuren op basis van beschrijvingen of medische beelden. Dit maakt abstracte concepten tastbaarder voor studenten of patiënten.

Anatomisch 3D-model van het menselijke hart voor educatief gebruik

Door deze technologieën te koppelen aan interactieve platformen of AR-headsets kunnen gebruikers intuïtiever leren, trainen of plannen — zonder dure handmatige modellering.

Limitaties & Realisme: Waar botsen we vandaag nog tegenaan?

Hoewel AI-tools indrukwekkende 3D-modellen kunnen genereren, zijn er nog duidelijke beperkingen wanneer je ze wil inzetten in professionele workflows.

Meshkwaliteit

De gegenereerde meshes zijn vaak ruw, bevatten te veel polygons of hebben artefacten zoals gaten of zwevende vertices. Retopologie is meestal nodig.

Inconsistente renders

Bij NeRF-gebaseerde modellen zijn de voor- en zijkanten meestal goed, maar de achterkant bevat vaak ruis of is niet goed uitgewerkt. Dit komt door gebrek aan zichtbare trainingviews.

UV-mapping en textures

Veel modellen leveren geen degelijke UV-unwrapping of hoogwaardige textures. Je krijgt vertex colors of generieke diffuse maps, wat verdere nabewerking vereist.

Fantasie en interpretatiefouten

De AI verzint soms details waar onvoldoende input voor is. Hierdoor krijg je objecten die er goed uitzien van één kant, maar structureel niet kloppen.

Geen schaal of metriek

Modellen leveren objecten zonder consistente schaal of afmetingen. Een bril kan even groot zijn als een auto.

Toekomst en automatisatie: AI als bouwsteen in 3D-pipelines

De grootste waarde van text-to-mesh en image-to-mesh modellen ligt in hun potentieel voor automatisatie. In plaats van handmatig elk 3D-model te ontwerpen, kunnen ze dienen als startpunt binnen een grotere content pipeline.

Stel je een AR/VR-omgeving voor waar objecten automatisch gegenereerd worden op basis van context of gebruikersinput. Een gebruiker beschrijft bijvoorbeeld “een middeleeuws schild”, en binnen enkele seconden verschijnt het als interactief object in een virtuele wereld. In game engines zouden deze modellen automatisch placeholder assets, omgevingsobjecten of zelfs NPC’s kunnen genereren tijdens leveldesign.

Ook in e-commerce of digital twin-toepassingen kan AI 3D-modellen creëren op basis van bestaande foto's of beschrijvingen van producten, wat de schaalbaarheid van 3D-catalogi sterk verhoogt.

Door deze tools te koppelen aan bestaande software (zoals Unity, Blender of Houdini) en te combineren met AI-agents of promptgenerators, kunnen er volledige semiautomatische pipelines ontstaan — van tekst of beeld tot bruikbare, geoptimaliseerde 3D-content.

Kortom: deze modellen zullen in de toekomst niet het creatieve proces vervangen, maar wel drastisch versnellen en toegankelijker maken.

Afsluiter

AI-gestuurde 3D-generatie staat nog in zijn kinderschoenen, maar toont nu al enorme potentie voor snellere, flexibelere workflows. Of je nu werkt aan een game, AR-toepassing of productvisualisatie, deze tools kunnen het verschil maken in snelheid en creativiteit.

Authors

/
Hube Knaepkens, intern
/
Jens Krijgsman, Automation & AI researcher, Teamlead

Want to know more about our team?

Visit the team page

AILab Howest

Van prompt tot 3D-model: een AI-workflow voor text-to-mesh en image-to-mesh generatie

Main section

Tekst-To-Mesh Workflow

Diffusion Models for 3D (Latent or Rendered)

CLIP Guidance & Tekst Embedding Matching

Bottom section

Contributors