Các nhà nghiên cứu của công ty Microsoft vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng chuyển văn bản thành giọng nói mới mang tên VALL-E. Điều thú vị là VALL-E có thể mô phỏng rất sát giọng nói của một người, khi được cung cấp một mẫu âm thanh do người này đọc, với độ dài chỉ 3 giây.
Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp và tạo ra âm thanh của người đó đang nói bất kỳ nội dung gì, kèm theo diễn cảm khi nói rất giống thật.
Những người tạo ra VALL-E cho rằng AI này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao. VALL-E cũng có thể được dùng để chỉnh sửa giọng nói, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi để họ nói thêm điều gì đó mà ban đầu không nói tới. Ngoài ra, VALL-E cũng có thể được dùng để tạo nội dung âm thanh, khi kết hợp với các mô hình AI sáng tạo khác như GPT-3.
Microsoft gọi VALL-E là "bộ giải mã thần kinh của mô hình ngôn ngữ " và nó được xây dựng dựa trên công nghệ có tên EnCodec mà công ty Meta từng công bố vào tháng 10/2022. Không giống như các phương thức chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều chỉnh các dải sóng âm, VALL-E tạo ra các bộ mã âm thanh riêng biệt từ dữ liệu nhập vào là văn bản và âm thanh.
Về cơ bản, nó sẽ phân tích cách một người phát âm khi nói, rồi chia thông tin thành các thành phần riêng biệt (được gọi là các "token") nhờ EnCodec. Tiếp đó, AI sử dụng dữ liệu được đào tạo để khớp với những gì nó "hiểu biết" về cách thức âm thanh được tạo ra khi một người nói và tạo ra các âm thanh mới, giống hệt với lối nói và cảm xúc nằm trong đoạn âm thanh mẫu dài 3 giây ban đầu.
Hoặc chúng ta có thể hiểu về VALL-E như giải thích chính thức của Microsoft: Để tổng hợp ra một giọng nói được cá nhân hóa, VALL-E tạo token âm thanh tương ứng dựa trên token âm thanh của bản ghi âm mẫu dài 3 giây và dữ liệu đầu vào về âm vị, sẽ hạn chế thông tin về nội dung và người nói tương ứng. Cuối cùng, token âm thanh tạo ra từ quá trình này sẽ được sử dụng để tổng hợp thành dải sóng âm, thông qua một giải mã thần kinh của mô hình ngôn ngữ tương ứng.
Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E dựa trên một thư viện âm thanh do Meta tổng hợp, có tên là LibriLight. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh, từ hơn 7.000 người nói. Hầu hết các giọng nói này thực tế là những sản phẩm sách nói, được trích xuất từ kho sách nói công cộng LibriVox.
Để VALL-E cho ra kết quả tốt, giọng nói trong mẫu ghi âm dài 3 giây phải khớp với giọng nói trong dữ liệu huấn luyện AI này.
Trên trang web trình diễn năng lực của VALL-E, Microsoft cung cấp rất nhiều ví dụ cho thấy hoạt động của mô hình AI. Người hứng thú với sản phẩm này có thể truy cập theo địa chỉ https://valle-demo.github.io/ để trải nghiệm.
Ngoài việc bảo toàn âm sắc giọng nói và giai điệu cảm xúc của người nói, VALL-E cũng có thể bắt chước "môi trường âm thanh" của âm thanh mẫu. Ví dụ: nếu mẫu đến từ một cuộc gọi điện thoại, thì đầu ra âm thanh sẽ mô phỏng các thuộc tính âm thanh và tần số của một cuộc gọi điện thoại trong sản phẩm tổng hợp cuối.
Nhưng có lẽ do khả năng của VALL-E quá mạnh, có thể bị kẻ xấu sử dụng để phục vụ cho các trò lừa đảo, nên hiện Microsoft không cho phép công chúng thử nghiệm AI này. Nhóm nghiên cứu dường như cũng nhận thức được tác hại xã hội tiềm ẩn liên quan tới sản phẩm của họ.
Vì thế, họ đã kết luận ở cuối bài báo khoa học giới thiệu về VALL-E như sau: "Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói, nên nó có thể chứa những rủi ro tiềm ẩn nếu sử dụng sai mô hình, chẳng hạn như giả mạo giọng nói hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng thêm một mô hình phát hiện, để phân biệt liệu một đoạn âm thanh có phải là sản phẩm do VALL-E tổng hợp hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc AI của Microsoft vào thực tế khi phát triển thêm AI này".
Vui lòng nhập nội dung bình luận.