구글, 영상·음향 동시 생성하는 ‘비오 3.1’ 공개

기사 메일전송

김민수
등록 2025-10-20 16:18:37
수정 2025-10-20 16:19:24

목록으로

AI 영상사실감·편집 자유도 대폭 개선… 오디오 생성 완전 통합
소라 2와 본격 경쟁 구도… “영화 제작자에 가까운 사고방식 구현”

구글이 자사 인공지능(AI) 영상 생성 모델 ‘비오(Veo)’의 최신 버전 ‘비오 3.1(Veo 3.1)’을 공개했다. 지난 5월 ‘I/O’ 행사에서 비오 3를 선보인 지 5개월, 오픈AI의 ‘소라 2’ 출시 이후 불과 2주 만이다.

이번 버전은 영상의 사실감과 편집 자유도를 크게 높였다. 조명과 그림자, 물리 효과의 표현이 정교해졌으며, 영상 속 오브젝트를 자연스럽게 추가하거나 제거해 배경을 새로 구성할 수 있다.

가장 큰 변화는 오디오 생성 기능의 완전한 통합이다. 사용자는 영상과 음향을 동시에 생성하거나 확장할 수 있게 됐다. 세 장의 이미지만으로 영상과 오디오를 함께 제작하는 ‘인그리디언트 투 비디오(Ingredients to Video)’ 기능, 시작과 끝 이미지를 부드럽게 이어주는 ‘프레임 투 비디오(Frames to Video)’ 기능이 새로 추가됐다. 또 기존 영상의 마지막 장면을 최대 1분까지 연장하면서 자연스러운 사운드를 자동으로 덧붙이는 ‘장면 확장(Scene Extension)’ 기능도 탑재됐다.

구글은 이번 업데이트를 통해 사용자가 별도의 후반 편집 없이도 감정과 스토리텔링이 자연스럽게 이어지는 영상을 만들 수 있게 됐다고 설명했다.

비오 3.1은 플로우(Flow) 앱과 제미나이(Gemini) API, 버텍스 AI(Vertex AI)를 통해 제공되며, 기업 고객은 그래픽 사용자 인터페이스(GUI) 기반 또는 프로그래밍 방식 중 하나를 선택해 사용할 수 있다. 가격은 이전 버전과 동일하다. 표준 모델은 초당 0.40달러, 고속 모델은 초당 0.15달러 수준으로 책정됐다.

영상 해상도는 720p에서 1080p까지 지원하며 초당 24프레임으로 제작된다. 기본 영상 길이는 4~8초이며, ‘확장(Extend)’ 기능을 통해 최대 2분 30초 이상으로 늘릴 수 있다.

구글은 비오가 지난 5월 첫 출시 이후 전 세계에서 2억 7,500만 건 이상의 영상이 제작될 만큼 큰 인기를 얻었다고 밝혔다. 토마스 일리치 구글 랩스 제품관리 총괄은 “비오 3.1은 인간 영화 제작자의 사고방식에 가까운 기능을 제공한다”며 “장면 구성과 컷 간 연속성, 오디오 조화 등 실제 영화 제작 과정을 AI로 자동화했다”고 말했다.

이번 출시는 오픈AI의 ‘소라 2’가 큰 주목을 받는 가운데 이뤄졌다. 업계에서는 두 모델을 직접 비교하는 움직임이 활발하다. 일부 전문가는 “비오 3.1의 영상 품질이 다소 인공적이고 가격이 소라 2보다 높다”고 평가했지만, 다른 쪽에서는 “오디오 품질과 장면 확장 기능은 비오 3.1이 더 뛰어나다”고 반박했다.

AI 영상 생성 기술이 영화 제작의 패러다임을 바꾸고 있는 가운데, 비오 3.1은 시각과 청각을 동시에 다루는 새로운 창작 도구로 진화했다는 평가가 나온다.