Какво означава новата функция на Nvidia за текст към 3D за инженеринга и продуктовия дизайн

TL; д-рGenerative AI се развива с вълнуваща скорост. Най-новият алгоритъм на Nvidia преобразува текст в 3D мрежа два пъти по-бързо от проекти, публикувани само преди няколко месеца. Това означава, че техническите възможности вече надхвърлят нашите възможности за работа с тях.

последните седмици хартия от учени на Nvidia, които показаха огромната скорост, с която се развива генеративното пространство на изкуствения интелект. Тази експлозия на активност – особено ясно изразена през последните девет месеца – ще окаже влияние върху всяка част от живота, не на последно място върху дизайна на продукта, инженеринга и производството. Промените ще развържат индустрията от структурните ограничения в начина, по който се комуникират идеите, позволявайки по-бързи цикли на иновации и най-накрая ще й позволят да изпълни своите обещания за устойчивост.

След като години наред се говореше, че изкуственият интелект ще революционизира начина ни на работа, малцина очакваха творческият сектор да бъде сред първите му жертви. Появата на хуманоиден текстов генератор в GPT-3 през 2020 г. постави повече фокус върху възможностите. Оттогава беше диво пътуване: DALL-E (текст към изображение), Whisper (разпознаване на реч) и най-скоро Stable Diffusion (текст към изображение) не само увеличиха възможностите за говор и визуални AI инструменти, но и намали ресурсите, необходими за използването им (от 175 милиарда параметри за GPT-3 на 900 милиона за стабилно разпространение).

Размерът на Stable Diffusion означава по-малко от 5 GB дисково пространство – може да работи на всеки лаптоп. Не само това; За разлика от OpenAI (който е основно финансиран от Microsoft и публикува GPT-3, DALL-E и Whisper), Stable Diffusion е с отворен код, което означава, че другите могат да надграждат върху това, което научавате по-лесно. Това означава, че виждаме само началото на иновационния цикъл — има още, което предстои, показва документът на Nvidia.

Поддръжниците на Stable Diffusion (stabil.ai) стимулират тази посока, като предоставят технологии и финансови субсидии на други екипи, които поемат изследването в нови посоки. Освен това има голям брой проекти, които правят инструментите достъпни за широк кръг потребители. Сред тях са плъгини за Blender, инструмент за проектиране с отворен код и собствен еквивалент на Photoshop на Adobe. Пълният API достъп до инструменти се финансира с големи пари от рисков капитал, което означава, че стотици милиони разработчици на софтуер, а не само няколкостотин хиляди инженери по данни, сега ще изградят свои собствени инструменти върху тези алгоритми.

Речта, изображенията и текстът са сред първите сектори, които тези технологии нарушават. Но 3D не остава по-назад. Освен специализираното генеративно изкуство, анимацията е очевидната първа точка на приложение. Вече има Pokemon генератор, базиран на Stable Diffusion. Следват визуалните ефекти и филмите. Но много други сектори вероятно ще бъдат нарушени – сред тях интериорният дизайн с водещия Interiorai.com.

В цялото вълнение прилагането на иновации в дизайна и инженеринга се чувства като закъсняла мисъл. Вероятно обаче регионът ще бъде най-засегнат в крайна сметка. Разбира се, има първоначални предизвикателства: Първо, стабилната дифузия и нейните естествени данни все още не са много точни. Това не е проблем за карикатурите, но е голямо предизвикателство за всеки опит за преобразуване на текст в цели 3D геометрични фигури, използвани в индустриалния контекст. Това е област с известен нововъзникващ интерес (проект, наречен Bits101, стартира в Израел през 2015 г.). Това може да е светият граал на индустрията, но има много междинни предизвикателства, които може да са много по-лесни за решаване. Това включва подобрено разпознаване на обекти (алгоритъмът Yolo вече се използва с голям ефект), което ще подобри цитирането и анотацията – подобряване на качеството и намаляване на грешките. Приставките трябва също така да улеснят използването на генериращ AI за разработване на основни дизайни (основи), които след това могат да бъдат модифицирани в инструменти за проектиране, за да се подобрят толерансите според изискванията. Това е подходът, който вече се използва в Inspire на Altair, който използва анализ на крайни елементи, за да направи същото. Тези примитиви могат да служат и като композиционна база данни за анотирани модели, което е рядкост в 3D CAD индустрията. Изпълнителен директор и основател на Physna Позовава се на това в статия Той описва подробно техните собствени опити да използват тези нови подходи за създаване на подробни 3D дизайни, което също подчертава редица клопки при използването на синтетични данни за управление на тези алгоритми. Библиотека за износване на инструменти за определяне на най-добрите производствени стратегии.

Тези предизвикателства са важни и изгодни за справяне с тях и за самите тях. Основното им въздействие обаче ще бъде да помогнат за развитието на пътя от идея до дизайн, като в крайна сметка намалят зависимостта от 3D дизайни за предаване на намерение. Дизайните, независимо дали са 2D или 3D, са били основното средство за превръщане на нуждите на клиентите в готови продукти. Това ограничава индустрията, защото тези дизайни действат като черна кутия, в която всички онези ценни прозрения на клиентите, производствени ограничения и фирмени цели се съхраняват, неразделни, но дефинирани сами по себе си. Това означава, че когато нещо се промени, е невъзможно просто да се промени дизайнът. Ето защо производствените иновации като 3D принтирането отнемат толкова време, за да се възприемат и трайно разочароват краткосрочните инвеститори. Компонентите, които изграждат един самолет, се „настройват“ от момента, в който е проектиран, въпреки 20+ години полезен живот. Няма почти никакво място за иновации – те трябва да изчакат следващото поколение, за да стартират.

Възможността да промените едно ограничение и да позволите на алгоритъм като Stable Diffusion да преконфигурира проектните и производствените параметри значително ще ускори приемането на нови иновации и ще ни позволи да създаваме по-леки продукти с по-добра производителност по-бързо. Както правят във Формула 1 или Системен дизайн, бъдещите инженери ще действат като мениджъри на ограничения, способни да изразят с думи и чрез референтни източници на данни каква е целта и ограниченията на даден продукт.

Без да ускорим инженерния процес за нови и съществуващи продукти по този начин, ние почти нямаме начин да постигнем амбициозните цели за устойчивост, които трябва да си поставим. За да направим това, първо трябва да се споразумеем за език, който можем да използваме, за да общуваме извън дизайна. Тази нова семантична парадигма е очевидната празнина в иновациите, описани по-горе. Редица компании вече са започнали да експериментират с него, като напр nТопология с нейните концепции за полета. Темпото на промяната обаче е бавно, за разлика от алгоритмите, които ще бъдат захранвани от семантичния модел. Твърди се, че новият алгоритъм на Nvidia е два пъти по-бърз от Dream FusionПубликувано е преди по-малко от два месеца. Производствените и инженерните компании трябва да работят върху улавянето на своите идеи по нови и футуристични начини сега, за да се възползват максимално от възможностите, които притежава тази експлозия на генеративен ИИ. Скоростта на промяна в алгоритмите показа още веднъж, че законът на Морз се прилага навсякъде, където джаджите са дигитализирани. Предизвикателството остава нашата човешка неспособност да прегърнем тази промяна и да разгърнем нови начини на комуникация, способни да отключат потенциала си, въпреки неотложността на задачата.