Запознайте се с MinD-Vis: AI модел, който може да реконструира това, което виждате, с помощта на сканиране на мозъка

Дифузионните модели станаха интересни за общността на машинното обучение през последните месеци. от Генерирайте видеоклипове използване на текстови подкани Редактиране на снимкатаВидяхме няколко успешни приложения на дифузионни модели през последното тримесечие.

Идеята зад моделите на разпространение е сравнително проста. Започвате с чист шум и постепенно премахвате шума, докато получите реалистично изглеждаща картина. Може да попитате какво ще кажете за текстовите подкани, които използваме? Как се отразява на полученото изображение? Е, отговорът е, че се използва за адаптиране на мрежата, така че прогресивното намаляване на шума да върви в определена посока.

Знаем, че ако започнем от изображение с чист шум, можем да създадем от него реалистично изглеждащо изображение. Ето как работи моделът на разпространение. Чудили ли сте се как си спомняме или си представяме неща, които сме виждали преди? Какво се случва в мозъка ни, когато видим патица в градината и се върнем вкъщи и се опитаме да си спомним как е изглеждала? И защо изобщо говоря за това в типично разпространение на статия? Ами защото MinD-Vis Той се опитва да постигне нещо наистина интересно. Дешифриране на ЯМР сканиране на човешки мозъци, за да възстанови нещата, които са видели.

Да, прочетохте го правилно. Съществува дифузионен модел за реконструиране на нещата, които виждате с помощта на MRI сканиране на мозъка ви, когато за първи път сте видели този обект.

Ние оформяме живота си около това, което преживяваме и виждаме. В допълнение към качествата на външните стимули, нашите преживявания също оформят сложната мозъчна дейност, която е в основата на нашето възприятие за света. Основната цел на когнитивната невронаука е да разбере тези мозъчни функции и да декодира съхранената информация. Следователно декодирането на визуална информация за сканиране на мозъка е важна задача.

Но как улавяме информация в мозъка? Повечето от нас вероятно са виждали MRI машина в болницата. Тези устройства могат да сканират дейностите на мозъка ви. От друга страна, функционалният магнитен резонанс (fMRI) е вид технология за медицински изображения, която използва магнитно поле и радиовълни за създаване на подробни снимки на мозъка. За разлика от традиционния MRI, който създава статични изображения на мозъка, fMRI може да се използва за създаване на динамични изображения, които показват промени в мозъчната активност с течение на времето.

Някои проучвания са фокусирани върху възстановяването на визуални съответствия с помощта на оригинални fMRI сканирания и ръководни биологични принципи с парадигма на дълбоко обучение. Въпреки това, тъй като моделите за дълбоко обучение се захранват с огромно количество данни и тъй като наборът от данни за fMRI изображения по двойки не е широко достъпен, тези методи обикновено произвеждат размазани, безсмислени изображения.

Получаването на функционални и биологично здрави fMRI представяния е от съществено значение за изграждането на ясна и универсална връзка между мозъчната активност и визуалните стимули с някаква анотация по двойки.

Когато става въпрос за предоставяне на контекстна информация на модел на задълбочено обучение, самоконтролираното обучение с алиби задачи върху големи набори от данни е наистина мощен подход. След това се приема специфична за домейн задача за по-нататъшно подобряване на модела. Това е особено полезно, когато размерът на набора от данни е относително малък. Въпреки това е важно да изберете подходящ претекст, за да използвате правилно този подход. Убедителното моделиране на сигнали (MSM) е един от най-добрите примери тук, тъй като може да се справи наистина добре в задачите за компютърно зрение.

Освен това всички сме виждали колко добри са дифузионните модели, когато става въпрос за генериране. Те осигуряват превъзходна производителност при генериране и стабилизиране на тренировка. Това е полезно при декодиране на визуални стимули.

Следователно MinD-Vis комбинира тези два инструмента, за да излезе с надежден модел за декодиране на стимули. MinD-Vis е прикрито спорадично мозъчно моделиране с двоен условен модел на латентна дифузия за декодиране на човешкото зрение. Мащабното обучение използва набор от данни и симулира оскъдното кодиране на информация в мозъка. MinD-Vis може да създаде смислени изображения със съвпадащи детайли, като използва мозъчен запис с много малко тренировъчни двойки.


сканирайте хартияИ на кодИ проект. Цялата заслуга за това изследване е на изследователите по този проект. Освен това не забравяйте да се присъедините Нашата страница в Reddit И на канал на раздоракъдето споделяме най-новите новини за изследвания на AI, готини AI проекти и много други.


Екрем Четинкая има бакалавърска степен. през 2018 г. и МА. през 2019 г. от Ozyegin University, Истанбул, Турция. Написа магистратурата си. Теза за намаляване на шума в изображението с помощта на дълбоки конволюционни мрежи. В момента следва докторска степен. степен в Университета на Клагенфурт, Австрия, и работи като изследовател по проекта ATHENA. Неговите научни интереси включват дълбоко обучение, компютърно зрение и мултимедийни мрежи.