OpenAI, ChatGPT의 음성·이미지 입력 기능 업데이트

OpenAI가 최근 공식 블로그를 통해 ChatGPT에 새로운 음성 입력과 이미지 업로드 기능을 추가했다고 발표했습니다. 그동안 텍스트 중심으로 이뤄지던 대화형 AI 모델이 음성과 이미지를 직접 분석하게 되면서, 사용자 경험이 한층 확장될 것으로 기대됩니다.

ChatGPT를 이용해 작업한 이미지(유니콘이 운전대를 잡은 사실적 이미지)

핵심 요약

음성 입력: 마이크를 통해 질문하거나 의견을 말하면, ChatGPT가 인식해 답변 제공
이미지 업로드: 사진이나 스크린샷을 올리고, 해당 시각 정보를 기반으로 AI가 분석 및 응대
멀티모달(Multimodal) 이슈: 텍스트에 국한되지 않고, 시각·청각 정보를 모두 이해하는 AI 모델 방향성

이러한 업데이트는 OpenAI Official Blog를 비롯해 BBC Technology 섹션 등 여러 매체에서도 다뤄졌습니다. 업계 전문가들은 “음성과 이미지를 동시에 이해하는 멀티모달 AI 시대가 점점 가속화되는 전조”라고 평하고 있습니다.

주목 포인트

사용자 편의성 대폭 증가
손가락으로 타이핑하지 않아도 되므로, 운전 중 음성 질의, 업무 중 사진 첨부 등 다양한 활용 시나리오 가능
프라이버시·저작권 논란
음성·이미지 데이터가 모델 학습에 재활용될 수 있다는 점에서, 개인정보·초상권 보호 문제가 대두

예를 들어, 집안 사진을 ChatGPT에 올려 인테리어 조언을 받는다면, 그 사진 속 가구, 책 제목 등의 정보가 모델 학습에 쓰일 수 있다는 우려가 제기됩니다. 이에 대해 OpenAI 측은 “개인정보 보호를 위한 별도의 프로세스가 있다”고 설명하지만, 사용자의 신중한 접근이 요구됩니다.

참고 출처

OpenAI Official Blog (업데이트 세부 내용)
openai.com/blog
BBC Technology (멀티모달 AI 관련 보도)
bbc.com/news/technology

이밖에도 전문가들은 MDN Web Docs - font-weight를 인용하며, "AI가 다양한 양식(글자, 이미지, 음성)을 자유자재로 변환할 수 있게 됐다"고 전했습니다.

긱스코드(GIGSCORD)

음성과 이미지를 이해한다고? OpenAI가 ChatGPT를 다시 뒤집었다!

OpenAI, ChatGPT의 음성·이미지 입력 기능 업데이트

핵심 요약

주목 포인트

참고 출처

마무리

티스토리툴바