Bản sao chép giọng nói người thật đến hoàn hảo của AI. Bản sao chép giọng nói người thật đến hoàn hảo của AI.

Theo The Verge, giờ đây người dùng có thể giả giọng nói của chính mình bằng công nghệ AI với thao tác đơn giản, nhanh gọn.

Chỉ cần nói liên tục vào micro trong thời gian tối thiểu 30 phút, AI sẽ xử lý dữ liệu đó trong khoảng vài giờ.

Sau đó, người dùng chỉ cần nhập nội dung cần nói vào khung hội thoại. "Bản sao" sẽ mô phỏng lại với giọng nói gần như giống hệt bản gốc.

Tất nhiên, đó sẽ là bản sao hoàn hảo đến mức người thân và bạn bè của bạn không thể nhận ra đâu là chính bạn, đâu là bản giả mạo.

Công nghệ này vốn đã xuất hiện và phát triển vài năm trở lại đây nhờ trí tuệ nhân tạo nhưng chưa được nhiều người biết đến.

Trước đó, bằng cách ghi lại giọng của người lồng tiếng rồi cắt ra thành những âm thanh nhỏ lẻ, sau đó nối lại để tạo thành từ mới, chúng ta sẽ làm ra được giọng nói nhân tạo.

Mạng thần kinh nhân tạo có thể sinh ra giọng nói từ những dữ liệu chưa được sắp xếp

Dù chất lượng chưa hoàn hảo nhưng cách làm này nhanh chóng, tiện lợi cũng như đưa ra giọng nói chân thực hơn.

Kỹ thuật làm giả giọng nói không quá đặc biệt nên đã có nhiều công ty khởi nghiệp cung cấp dịch vụ này.

Có thể kể đến một vài cái tên từ các ứng dụng chỉ tập trung vào giọng nói nhân tạo như Respeecher, Resemble AI cho đến công ty lớn như Veritone, Descript.

Công nghệ này được xem như một ứng dụng mới lạ của AI, nhưng cũng gây ra ít nhiều xung đột ý kiến xoay quanh vấn đề đạo đức, lo ngại về hệ lụy nghiêm trọng sau này.

Phim tài liệu "Roadrunner: A Film About Anthony Bourdain".. Phim tài liệu "Roadrunner: A Film About Anthony Bourdain".

Hồi tháng 7, phim tài liệu về đầu bếp Anthony Bourdain gây tranh cãi về mặt đạo đức do nhà làm phim sử dụng AI để giả giọng nói của vị đầu bếp quá cố.

Mặt khác, đến tháng 8, công ty Sonantic công bố đã tạo ra bản sao giọng nói của Val Kilmer.

Được biết, sau khi điều trị ung thư vòm họng, giọng nói của nam diễn viên này đã bị thay đổi.

Khác với tình huống của đầu bếp Anthony Bourdain, công chúng ủng hộ và khen ngợi AI trong trường hợp này.

Jay-Z kiện AI nhái giọng mình đọc rap "We Didn’t Start the Fire" của Billy Joel hay độc thoại "To be or not to be" của Hamlet. Jay-Z kiện AI nhái giọng mình đọc rap "We Didn’t Start the Fire" của Billy Joel hay độc thoại "To be or not to be" của Hamlet.

Riêng vào tháng 4/2020, rapper Jay-Z đã đề đơn kiện kênh YouTube Vocal Synthesis vì dùng AI nhái lại giọng rap của anh.

Thậm chí, kênh Vocal Synthesis còn bắt chước giọng Barack Obama và Donald Trump như một trò đùa bình thường của trẻ con khiến nhiều người e ngại.

Ứng dụng thực tiễn và những lo lắng về công nghệ trí tuệ nhân tạo. Ứng dụng thực tiễn và những lo lắng về công nghệ trí tuệ nhân tạo.

"Liệu tuyên bố chiến tranh của Thủ tướng Canada mà bạn nghe qua đài phát thanh là thật? Người đàn ông đang nói chuyện qua điện thoại hỏi về mật khẩu email có đúng là bố bạn?", tạp chí HowToGeek bình luận.

Các chuyên gia trong ngành dự đoán các ứng dụng cung cấp dịch vụ AI giả giọng sẽ phát triển sôi nổi trong những năm tới.

Những startup trong lĩnh vực này cũng nuôi hy vọng, người nổi tiếng sẽ sử dụng công nghệ này như một cách thức sao chép và cho thuê giọng nói nhằm tăng thu nhập.

Công ty công nghệ Veritone vừa tung ra dịch vụ cho phép người nổi tiếng dùng giọng AI của họ cho những mục đích như thu radio mà không cần đến trường quay.

Tài tử Bruce Willis đang ở Mỹ nhung vẫn có thể đóng phim quảng cáo cho nhà mạng Nga và nhận thù lao triệu đô nhờ vào… việc cho phép sử dụng deepfake. Tài tử Bruce Willis đang ở Mỹ nhưng vẫn có thể đóng phim quảng cáo cho nhà mạng Nga và nhận thù lao triệu đô nhờ vào… việc cho phép sử dụng deepfake.

Những ứng dụng tương tự vẫn chưa phổ biến nhưng gần đây, diễn viên gạo cội Bruce Willis đã cho phép hình ảnh deepfake của mình được xuất hiện trong quảng cáo tại Nga.

Chính điều này giúp mở ra hy vọng cho tương lai của bản sao giọng nói điện tử.

Diễn viên lồng tiếng quan tâm công nghệ nhân bản giọng nói

Khi nhân bản giọng nói trở nên hiệu quả, công nghệ ngày càng thu hút được sự quan tâm của các diễn viên lồng tiếng, thậm chí đến cả thế giới tội phạm mạng.

Phần mềm có thể nhận diện trọn vẹn giọng của bạn bao gồm cả âm sắc, cao độ, nhịp độ, cách nói và nhịp thở của bạn.

Đặc biệt, giọng nói nhân bản còn có thể được điều chỉnh để khắc họa đầy đủ những cảm xúc quen thuộc, chẳng hạn như tức giận, sợ hãi, hạnh phúc, yêu thương hay buồn chán.

Tim Heller, nghệ sĩ và diễn viên lồng tiếng người Mỹ 29 tuổi, nói rằng công nghệ độc đáo giúp anh đảm bảo công việc hơn.

Để có được giọng nói nhân bản của mình, Heller tìm đến doanh nghiệp có trụ sở tại Boston tên là VocaliD.

VocaliD - một trong những công ty sở hữu phần mềm tổng hợp giọng hát phổ biến hiện nay.

Lần đầu tiên khi Tim Heller nghe thấy giọng nói nhân bản của mình, anh chia sẻ, bản sao đó chính xác đến mức "đáng kinh ngạc".

Nhân bản giọng nói sẽ vận hành một chương trình máy tính để tạo ra một bản sao tổng hợp, có thể điều chỉnh được từ giọng nói của một người.

Từ bản ghi âm của người nào đó đang nói chuyện, phần mềm có thể sao chép giọng nói của người đó.

Đó là tiến bộ mới nhất trong công nghệ mà máy tính có thể tạo ra âm thanh ngày nay và được cho là chính xác đến khó tin.

Bên cạnh những lợi ích của giọng nói nhân tạo đối với người nổi tiếng, công nghệ này còn nhiều ứng dụng khác trong thực tế.

Trong tương lai, công nghệ này còn có thể ra đời những trò chơi dùng chính giọng của người chơi để lồng tiếng.

Những cha mẹ bận rộn cũng có thể dùng giọng nói nhân tạo kể chuyện cho con cái khi không ở cạnh.

Công cụ cho tội phạm mạng

Rõ ràng, sự tinh vi ngày càng tăng của nhân bản giọng nói mang lại tiềm năng thương mại.

Tuy nhiên, điều đó cũng dẫn đến mối lo ngại ngày càng gia tăng rằng, công nghệ có thể được sử dụng trong thế giới tội phạm mạng để lừa đảo.

Cùng với các video giả do máy tính tạo ra, nhân bản giọng nói còn được gọi là "deepfake".

Eddy Bobritsky, ông chủ công ty Minerva Labs của Israel. Eddy Bobritsky, ông chủ công ty Minerva Labs của Israel.

Chuyên gia an ninh mạng Eddy Bobritsky nhận định "nguy cơ bảo mật rất lớn" đi kèm với những tiếng nói tổng hợp.

Khi nói đến email hoặc tin nhắn văn bản, việc mạo danh người khác đã khá dễ dàng trong nhiều năm nay.

“Việc nói chuyện điện thoại với người mà bạn tin tưởng và biết rõ là một trong những cách phổ biến nhất đảm bảo rằng bạn thực sự quen thuộc họ.” - Bobritsky bình luận.

Nhưng Bobritsky tuyên bố điều đó hiện đang thay đổi.

Trên thực tế, theo báo cáo năm 2019 của Wall Street Journal, một nhà quản lý người Anh được cho là đã rơi vào một vụ lừa đảo cực kỳ nghiêm trọng.

Anh ta đã chuyển 220.000 euro (gần 6 tỷ đồng VNĐ) cho bọn tội phạm lừa đảo sử dụng bản sao giọng nói ông chủ người Đức của anh.

Bobritsky cho biết thêm: "Cần phải thực hiện các bước để đối phó với những mối đe dọa mà công nghệ mới này mang lại.”

Trang tin tức chuyên về trí tuệ nhân tạo Venture Beat đưa tin, các công ty trên khắp thế giới đã và đang làm điều trên.

Họ có thể giám sát âm thanh để nhận biết, liệu đó có phải là giả, kết hợp với việc tìm kiếm các dấu hiệu như sự lặp lại, tiếng ồn kỹ thuật số và việc sử dụng những cụm từ hoặc từ nhất định.

Trong khi đó, các chính phủ và cơ quan thực thi pháp luật cũng đang xem xét vấn đề.

Theo VietQ