Nghiên cứu hỗ trợ nâng cấp các mô hình nhận dạng tiếng nói, tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói và chuyển tin nhắn thoại thành văn bản trên ứng dụng Zalo

Công trình nghiên cứu về cải thiện nhận dạng tiếng nói thời gian thực do kỹ sư đến từ Zalo AI Lê Duy Khánh (SN 2000) thực hiện đã được chọn công bố tại Hội nghị Khoa học về Xử lý tiếng nói, dự kiến diễn ra ở Hy Lạp vào tháng 9-2024.

Nghiên cứu này hỗ trợ nâng cấp các mô hình nhận dạng tiếng nói, tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói và chuyển tin nhắn thoại thành văn bản trên ứng dụng Zalo; cho phép người dùng soạn tin nhắn bằng giọng nói, giúp tiết kiệm thời gian và tiện lợi trong nhiều tình huống. Độ chính xác của tính năng này đạt tới 95% trong môi trường thực tế, với tỉ lệ cần chỉnh sửa văn bản sau khi soạn qua giọng nói giảm còn 4,8%.

Theo Zalo, dù công trình nghiên cứu trên vẫn còn trong giai đoạn thử nghiệm nhưng đã thu hút khoảng 3,2 triệu người dùng hằng tháng (cập nhật đến tháng 6-2024) với gần 4,5 triệu tin nhắn mỗi ngày. Nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp chatbot giọng nói, trợ lý giọng nói hoặc tính năng tự động tạo bản ghi cho các cuộc gọi video...