Dựng lại chân dung từ... giọng nói

Mai Nguyễn (Tổng hợp)

Dựng lại chân dung từ giọng nói

Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo thuộc Viện Công nghệ Massachusetts (Mỹ) vừa tạo ra một thuật toán AI có tên Speech2Face để tái tạo chân dung từ giọng nói.

Thuật toán này tạo ra một bức chân dung chính xác đến kỳ lạ chỉ bằng một bản ghi âm ngắn của người đang nói.

Đầu tiên, nhóm thiết kế và đào tạo một mạng nơ-ron sâu bằng cách sử dụng hàng triệu video từ YouTube và Internet khi con người đang nói chuyện. Trong quá trình đào tạo, AI đã "học" được mối tương quan giữa âm thanh của giọng nói và ngoại hình của người nói.

Các mối tương quan này cho phép AI đưa ra dự đoán tốt nhất về độ tuổi, giới tính và dân tộc của người đang nói. AI được cung cấp một kho video khổng lồ và được giao nhiệm vụ tìm ra mối tương quan giữa đặc điểm giọng nói và đặc điểm khuôn mặt.

Sau khi được đào tạo, AI cực kỳ giỏi trong việc tạo ra các bức chân dung chỉ dựa trên các bản ghi âm giọng nói giống với ngoại hình thực tế của người nói.

Để phân tích sâu hơn về độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một "bộ giải mã khuôn mặt" tạo ra bản tái tạo chuẩn hóa khuôn mặt của một người từ một khung hình tĩnh trong khi bỏ qua "các biến thể không liên quan" như tư thế và ánh sáng.

Điều này cho phép các nhà khoa học dễ dàng so sánh các bản tái tạo giọng nói với các đặc điểm thực tế của người nói. Một lần nữa, kết quả của AI rất giống với khuôn mặt thực trong phần lớn các trường hợp đào tạo thử nghiệm.

Những người có giọng nói cao (bao gồm cả các bé trai) thường được xác định là nữ trong khi những người có giọng nói trầm được gắn nhãn là nam. Một người đàn ông châu Á nói tiếng Anh dẫn đến ngoại hình ít giống người châu Á hơn so với khi anh ta nói tiếng Trung.