🔒 Jak budować efektywne modele multimodalne?

Rozwój dużych modeli językowych pociągnął za sobą rozwój modeli wielomodalnych (zwanych też multimodalnymi), czyli takich które na wejściu mogą przyjąć więcej niż jeden typ danych (modalność). W tym przypadku, omawiamy możliwość analizy obrazu i tekstu jednocześnie.

dr inz. Agnieszka Mikołajczyk-Bareła

Ten artykuł jest częścią serii “Tłumaczymy! Naukowe świeżynki”, do której zapraszamy ekspertów, by dla nas objaśniali aktualne publikacje naukowe z dziedziny sztucznej inteligencji.

W ramach swojej pracy “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training“ naukowcy z Apple’a postanowili przygotować „przepis na sukces”, czyli opracować wskazówki, jak wytrenować modele, aby odpowiednio analizowały wielomodalne wejścia i prawidłowo wykonywały instrukcje. Skupili się przy tym na dwóch aspektach: na architekturze modeli oraz danych treningowych. Przyjrzyjmy się bliżej temu, co opisali i co z tego wynika.

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

dr inz. Agnieszka Mikołajczyk-Bareła

Autorka zbiorów danych, prac naukowych i publikacji, Senior AI Engineer w start-upie Chaptr. Pracę doktorską na temat wykrywania i zmniejszania wpływu błędów w danych i modelach AI obroniła na Politechnice Gdańskiej. W wolnym czasie organizatorka, aktywnie udziela się w środowisku naukowym – prowadzi m.in. projekty AI4Good.

dekoder, llm, mlm, multimodal, wizja-tekst

🔒 Jak budować efektywne modele multimodalne?

Ten artykuł jest częścią płatnej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

25 zł miesięcznie

Share

Share

You might be interested in

🔒 DeepSeek – przyczajony tygrys

DeepSeek – a lurking tiger