Meta's ImageBind AI адамдын кабылдоосун туурай алат

Мета кодду жасалма интеллекттин ачык жеткиликтүүлүгүндө аты менен жарыялайт image bind, бул адамдардын айлана-чөйрөнү кандай кабыл алганына же элестеткенине окшош маалыматтардын ортосундагы мамилелерди болжолдойт. Midjourney, Stable Diffusion жана DALL-E 2 сыяктуу сүрөт генераторлору сүрөттөргө сөздөрдү байланыштырып, тексттик сүрөттөмөнүн негизинде визуалдык көрүнүштөрдү түзүүгө мүмкүндүк бергени менен, ImageBind андан да ашып кетет. Ал текстти, сүрөттөрдү же видеону, аудиону, 3D өлчөөлөрдү, температура маалыматтарын жана кыймыл маалыматтарын байланыштыра алат - жана муну ар бир мүмкүнчүлүктө алдын ала машыгуунун зарылдыгы жок кылат. Бул текст сунушу, сүрөт же аудио (же алардын айкалышы) сыяктуу жөнөкөй киргизүүлөрдөн татаал чөйрөлөрдү түзө ала турган алкактын алгачкы этабы.

Metaverse долбоору

Сиз ImageBindди машиналык үйрөнүүнү адамдын үйрөнүүсүнө жакындаштыруу катары ойлосоңуз болот. Мисалы, сиз динамикалык чөйрөдө турсаңыз, мисалы, шаардын көп көчөсүндө, мээңиз (негизинен аң-сезимсиз) өтүп бара жаткан унаалар, бийик имараттар, аба ырайы жана башкалар жөнүндө маалымат алуу үчүн көрүнүштөрдү, үндөрдү жана башка сенсордук сезимдерди сиңирип алат. . Адамдар жана башка жаныбарлар биздин генетикалык артыкчылыктарыбыз үчүн бул маалыматтарды иштетүү үчүн эволюциялашкан: жашоо жана ДНКбызды өткөрүп берүү. (Айланаңыз жөнүндө канчалык көп билсеңиз, ошончолук коркунучтан алыс болуп, жакшыраак аман калуу жана гүлдөш үчүн чөйрөңүзгө ыңгайлаша аласыз). Компьютерлер жаныбарлардын мультисенсордук байланыштарын туураганга жакындаган сайын, алар бул байланыштарды чектелген маалыматтарга негизделген толук ишке ашырылган көрүнүштөрдү түзүү үчүн колдоно алышат.

Ошентип, сиз Midjourney'ди "пляждагы топтун үстүндө тең салмактуу Гандальф кийиминдеги бассет ит" жаратып, ошол кызыктай көрүнүштүн салыштырмалуу реалдуу сүрөтүн алуу үчүн колдонсоңуз болот, ImageBind сыяктуу мультимодалдык AI куралы ит менен видео жаратып бүтүшү мүмкүн. үндөр, анын ичинде деталдуу конок бөлмөсү, бөлмө температурасы жана иттин жана окуя болгон жердегилердин так жайгашкан жери. "Бул статикалык сүрөттөрдөн анимацияларды аудио сунуштар менен айкалыштыруу үчүн эң сонун мүмкүнчүлүк түзөт", - деп белгилешет Meta изилдөөчүлөрү иштеп чыгуучуларга багытталган блогунда. "Мисалы, жаратуучу сүрөттү ойготкуч саат жана кыйкырган короз менен айкалыштыра алат жана саатты сегменттерге бөлүү жана видео ырааттуулугунда экөөнү тең жандандыруу үчүн корозду же ойготкуч сааттын үнүн сегменттерге бөлүү үчүн аудио сигналды колдоно алат."

Meta

Бул жаңы оюнчук менен дагы эмне кылса болот дегенге келсек, ал Метанын негизги амбицияларынын бирин көрсөтөт: VR, аралаш чындык жана метамейкиндик. Мисалы, келечектеги гарнитураны элестетип көргүлө, ал толугу менен ишке ашкан 3D көрүнүштөрдү (үн, кыймыл ж.б.) түзө алат. Же виртуалдык оюнду иштеп чыгуучулар аны дизайн процессиндеги түйшүктүү иштин маанилүү бөлүгүн сактап калуу үчүн колдонушу мүмкүн. Ошо сыяктуу эле, мазмун жаратуучулар жөн гана тексттин, сүрөттөрдүн же аудионун негизинде реалдуу саундтрек жана кыймыл менен иммерсивдүү видеолорду түзө алышат. Ошондой эле ImageBind сыяктуу курал көрүү же угуу мүмкүнчүлүгү чектелген адамдарга айлана-чөйрөнү жакшыраак түшүнүүгө жардам берүү үчүн реалдуу убакыт режиминде мультимедиялык сүрөттөмөлөрдү түзүү аркылуу жеткиликтүүлүктүн жаңы эшиктерин кантип ачарын элестетүү оңой.

Ошондой эле кызыктуу: Жасалма интеллектке негизделген мыкты куралдар

"Типтүү AI системаларында ар бир тиешелүү модальдуулук үчүн белгилүү бир киргизүү (б.а., маалыматтарды жана алардын машина үйрөнүүдөгү мамилелерин көрсөтө ала турган сандардын векторлору) бар" дейт Мета. "ImageBind ар бир жеке айкалышы менен маалыматтар боюнча машыктырбастан, бир нече модальдуулуктар үчүн жалпы кыстаруу мейкиндигин түзүүгө мүмкүн экенин көрсөтүп турат. Бул абдан маанилүү, анткени изилдөөчүлөр үлгүлөр менен берилиштер топтомун түзө алышпайт, мисалы, шаардын кыймылдуу көчөсүнөн аудио жана жылуулук маалыматтары, же тереңдик маалыматтары жана деңиз жээгиндеги жардын тексттик сүрөттөлүшү.

Мета бул технология акыры азыркы алты "сезимдин" чегинен чыгып кетет деп эсептейт. "Учурдагы изилдөөбүздө алты ыкманы изилдегенибиз менен, тийүү, сүйлөө, жыттоо жана fMRI мээ сигналдары сыяктуу мүмкүн болушунча көп сезүү органдарын бириктирген жаңы модальдарды киргизүү адамга багытталган AI моделдерин түзүүгө мүмкүндүк берет деп ишенебиз." Бул жаңы кумкоргонду изилдөөгө кызыккан иштеп чыгуучулар Meta ачык булак кодуна сүңгүүдөн баштаса болот.

Ошондой эле окуңуз:

Булактарыхка

Кирүү

0 Comments

Камтылган сын-пикирлер

Бардык комментарийлерди көрүү

Башка макалалар

Meta's ImageBind AI адамдын кабылдоосун туурай алат

Акыркы комментарийлер