Språkmodeller som ser: GPT-4V og CogVLM
Mange kjenner til mulighetene med ChatGPT. Veldig mange har også testet den. I siste halvdel av 2023 lanserte OpenAI GPT-4V med visuelle funksjoner (GPT-4V), noe som gjorde det mulig å stille bilde-relaterte spørsmål; for eksempel: "Hvor mange epler er det på bildet?" eller: "Hva står det på handlelisten?"
Men hvordan fungerer denne modellen i vanlige situasjoner? Og hva med eventuelle konkurrenter? Vi har testet.