
A inteligência artificial está avançando para além da compreensão textual: hoje, modelos capazes de interpretar imagens, sons e texto simultaneamente estão transformando a maneira como interagimos com máquinas. Neste livro, exploramos o poder dos Modelos de Linguagem Multimodal (MLLMs) com foco em aplicações práticas utilizando a linguagem Python e ferramentas modernas como o Hugging Face Transformers.
Por meio de exemplos claros e funcionais, como o uso do modelo BLIP (Bootstrapped Language-Image Pretraining) para geração automática de legendas a partir de imagens, o leitor aprenderá a desenvolver sistemas inteligentes que integram múltiplas formas de dados. O livro é ideal para estudantes, professores e profissionais que desejam compreender e aplicar conceitos de IA multimodal em seus projetos.
Com uma abordagem direta, prática e acessível, esta obra convida-o a mergulhar no futuro da computação — onde visão e linguagem caminham juntas para criar experiências verdadeiramente interativas e inteligentes.
Número de páginas | 108 |
Edición | 1 (2025) |
Formato | A5 (148x210) |
Acabado | Tapa blanda (con solapas) |
Tipo de papel | Estucado Mate 90g |
Idioma | Portugués |
¿Tienes alguna queja sobre ese libro? Envía un correo electrónico a [email protected]
Haz el inicio de sesión deja tu comentario sobre el libro.