Thứ Ba, 21 tháng 5, 2024

Published tháng 5 21, 2024 by Admin with 0 comment

Hành trình tri thức - Phần 2: Phương pháp xây dựng mô hình AI cho các phương ngữ đa dạng 21/05/2024

Hãy cùng đặt chân đến Trung Đông để khám phá hành trình xây dựng các công cụ AI cho tiếng Ả Rập – một ngôn ngữ với nhiều khía cạnh đặc biệt.

Galaxy AI hiện hỗ trợ đến 16 ngôn ngữ, giúp người dùng xóa bỏ rào cản ngôn ngữ bằng tính năng phiên dịch theo thời gian thực trên thiết bị. Hãy cùng chúng tôi tiếp tục tham quan các trung tâm Nghiên cứu của Samsung trên khắp thế giới để khám phá câu chuyện thú vị đằng sau sự ra đời của Galaxy AI, cũng như những nỗ lực không ngừng nghỉ để vượt qua các thử thách cam go trong quá trình phát triển và khai phóng kỷ nguyên AI trên thiết bị di động tại đây. Sau khi chúng ta đã có cơ hội tìm hiểu về cách xác định và thu nhập dữ liệu cần thiết, ở phần này, chúng ta sẽ tập trung vào việc tìm hiểu cách họ xử lý các phương ngữ khác nhau.

Việc huấn luyện AI là một thách thức không hề đơn giản, nhưng quá trình này sẽ thay đổi như thế nào khi phát triển hệ thống ngôn ngữ với nhiều phương ngữ khác nhau? Đó chính là bài toán khó mà đội ngũ tại Viện Nghiên cứu & Phát triển Samsung tại Jordan (SRJO) phải đối mặt. Khi tiếng Ả Rập được thêm vào danh sách các ngôn ngữ được hỗ trợ cho các tính năng Galaxy AI như Phiên dịch Trực tiếp, đội ngũ SRJO đã phải đảm bảo rằng các tính năng dịch có thể thích ứng với sự phong phú và đa dạng của hàng chục phương ngữ khác nhau trải dài khắp khu vực Trung Đông và Bắc Phi. Trong đó, mỗi phương ngữ đều có sự khác biệt về cách phát âm, từ vựng và ngữ pháp.

Tiếng Ả Rập là một trong sáu ngôn ngữ được sử dụng rộng rãi nhất trên thế giới với hơn 400 triệu người sử dụng hàng ngày[1].  Ngôn ngữ này được chia thành hai thể phổ biến: Fus’ha (tiếng Ả Rập chuẩn hiện đại) và Ammiya (các phương ngữ của tiếng Ả Rập). Fus’ha thường được sử dụng trong các sự kiện chính thức, các bản tin thời sự hoặc văn bản quan trọng. Trong khi đó, Ammiya được sử dụng trong những cuộc trò chuyện hàng ngày. Hiện nay, có hơn 20 quốc gia sử dụng tiếng Ả Rập và khoảng 30 phương ngữ trong khu vực.

Những quy tắc bất thành văn

Nhận thức được sự phong phú của các phương ngữ, nhóm nghiên cứu tại SRJO đã sử dụng một loạt các kỹ thuật để phân tích và xử lý các đặc điểm ngôn ngữ độc đáo trong từng vùng miền. Cách tiếp cận này rất quan trọng để đảm bảo Galaxy AI có thể hiểu và phản hồi một cách chính xác, phản ánh đúng các nét đặc trưng của khu vực.

Mohammad Hamdan, trưởng nhóm phát triển ngôn ngữ Ả Rập, cho biết: “Không giống với các ngôn ngữ khác, cách phát âm của tân ngữ trong tiếng Ả Rập thay đổi tùy thuộc vào chủ ngữ và động từ trong câu. Mục tiêu của chúng tôi là phát triển một mô hình có thể hiểu được tất cả các phương ngữ này và trả lời một cách tự nhiên bằng tiếng Ả Rập chuẩn.”

Công nghệ chuyển đổi giọng nói thành văn bản (TTS) trong tính năng Phiên dịch Trực Tiếp của Galaxy AI cho phép người dùng tương tác với người nói ngôn ngữ khác bằng cách dịch lời nói thành văn bản, sau đó tái tạo lại bằng giọng nói. Trong quá trình này, đội ngũ TTS đã phải đối mặt với một thách thức đặc biệt do tính đặc thù của tiếng Ả Rập.

Tiếng Ả Rập sử dụng dấu phụ, một loại ký hiệu chỉ cách phát âm trong một số ngữ cảnh nhất định, chẳng hạn như kinh sách tôn giáo, thơ ca và sách giáo khoa. Mặc dù người bản xứ hiểu rõ các dấu phụ này, nhưng chúng lại không xuất hiện trong văn viết hàng ngày. Điều này gây khó khăn cho máy tính trong việc chuyển đổi văn bản thô thành âm vị – những đơn vị âm thanh cơ bản cấu thành nên lời nói.

Haweeleh giải thích: “Hiện nay, chúng ta đang thiếu hụt những bộ dữ liệu chất lượng cao và đáng tin cậy để phản ánh chính xác cách sử dụng dấu phụ trong tiếng Ả Rập. Chính vì vậy, đội ngũ của chúng tôi đã phải thiết kế một mô hình Nơ-ron có khả năng dự đoán và khôi phục những dấu phụ còn thiếu với độ chính xác cao.”

Mô hình Nơ-ron này hoạt động tương tự như bộ não con người. Để dự đoán dấu phụ, mô hình cần nghiên cứu một lượng lớn văn bản tiếng Ả Rập, học các quy tắc ngôn ngữ và cách sử dụng từ trong các ngữ cảnh khác nhau. Ví dụ, cách phát âm của một từ có thể thay đổi rất nhiều tùy theo hành động hay giới tính mà nó mô tả. Nhờ quá trình đào tạo chuyên sâu của đội ngũ, mô hình TTS dành cho tiếng Ả Rập đã được cải thiện đáng kể về độ chính xác.

Nâng tầm thấu hiểu

Nhằm giúp người dùng giao tiếp dễ dàng hơn, đội ngũ SRJO đã nỗ lực không ngừng nghỉ để thu nhập vô số đoạn ghi âm các phương ngữ từ khắp nơi, sau đó tỉ mỉ chuyển đổi chúng thành văn bản, tập trung vào từng âm thanh, từ ngữ và cụm từ độc đáo. Ayah Hasan, người chịu trách nhiệm tạo cơ sở dữ liệu cho biết: “Chúng tôi đã tập hợp một đội ngũ người địa phương thông thạo các phương ngữ, cũng như hiểu rõ các sắc thái và biến thể của chúng để hỗ trợ quá trình này. Họ đã nghe lại các đoạn ghi âm và chuyển đổi chúng thành văn bản.”

Công việc này rất quan trọng để cải thiện quy trình Nhận diện giọng nói tự động (ASR) nhằm giúp Galaxy AI xử lý được nhiều phương ngữ tiếng Ả Rập. ASR có vai trò then chốt trong việc kích hoạt khả năng hiểu và phản hồi theo thời gian thực cho Galaxy AI.

Mohammad Hamdan, Giám đốc dự án ASR cho biết: “Xây dựng một hệ thống ASR hỗ trợ nhiều phương ngữ trong một mô hình duy nhất là một công việc khó khăn, đòi hỏi hiểu biết kỹ lưỡng về sự phức tạp của ngôn ngữ, lựa chọn dữ liệu cẩn thận và các kỹ thuật mô hình hóa tiên tiến.”

Đỉnh cao của sự đổi mới

Sau nhiều tháng chuẩn bị kỹ lưỡng, nhóm nghiên cứu đã chính thức ra mắt phiên bản tiếng Ả Rập cho Galaxy AI. Việc bổ sung ngôn ngữ mới này giúp phá vỡ rào cản ngôn ngữ, cho phép nhiều người trên khắp thế giới kết nối và giao tiếp với nhau hơn thông qua Galaxy AI. Nhóm nghiên cứu đã nỗ lực không ngừng để Galaxy AI trở nên thân thiện và dễ sử dụng hơn với người sử dụng tiếng Ả Rập, xóa bỏ những khác biệt về ngôn ngữ và văn hóa. Đồng thời, họ cũng phát triển những phương pháp mới hiệu quả, có thể áp dụng rộng rãi trên toàn cầu. Tuy nhiên, đây mới chỉ là bước khởi đầu. Nhóm nghiên cứu vẫn đang tiếp tục cải tiến các mô hình, nâng cao chất lượng và khả năng ngôn ngữ của Galaxy AI để mang đến trải nghiệm tốt hơn nữa cho người dùng.

Trong phần tiếp theo của Hành trình tri thức, chúng ta sẽ dừng chân tại Việt Nam để khám phá cách đội ngũ tại đây cải thiện dữ liệu ngôn ngữ. Ngoài ra, chúng ta sẽ tìm hiểu thêm về các yếu tố cần thiết để đào tạo một mô hình AI hiệu quả.

Tiếng Ả Rập chỉ là một trong số các ngôn ngữ và phương ngữ mới được Galaxy AI hỗ trợ và hiện có thể được tải xuống từ ứng dụng Cài đặt. Các tính năng ngôn ngữ của Galaxy AI như Phiên Dịch trực tiếp và Trợ lý Phiên dịch hiện khả dụng trên các thiết bị Galaxy chạy bản cập nhật One UI 6.1 của Samsung.[2]

[1] UNESCO, Ngày Ngôn ngữ Ả Rập Thế giới năm 2023, https://www.unesco.org/en/world-arabic-language-day
[2] One UI 6.1 lần đầu tiên được phát hành trên các thiết bị Galaxy S24 series và triển khai rộng rãi đến các thiết bị Galaxy khác bao gồm S23 series, S23 FE, S22 series, S21 series, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, Tab S9 series và Tab S8 series

Adblock test (Why?)

      edit

0 Comments:

Đăng nhận xét