Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL

Bài viết Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL đánh giá hiệu quả của Transformer-XL với tiếng Việt cũng như việc áp dụng chúng vào một hệ thống nhận dạng tiếng nói. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH NGÔN NGỮ TRANSFORMER-XL Nguyễn Quang Trung1, Đỗ Văn Hải2 1 Trung tâm Không gian Mạng Viettel 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG 2.

Thể loại Tài liệu miễn phí Kỹ thuật lập trình

Số trang 3

Ngày tạo 4/10/2023 12:38:10 AM +00:00

Loại tệp PDF

Kích thước 0.29 M

Tên tệp

Tải Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt... (.pdf)

Xem mẫu

Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH NGÔN NGỮ TRANSFORMER-XL Nguyễn Quang Trung1, Đỗ Văn Hải2 1 Trung tâm Không gian Mạng Viettel 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU Mô hình ngôn ngữ là một thành phần không thể thiếu trong một hệ thống nhận 2.1. Hệ thống nhận dạng tiếng nói. dạng tiếng nói hiện đại. Chúng giúp đưa ra Một hệ thống nhận dạng tiếng nói cơ bản được kết quả chính xác ngay cả khi người thường gồm các thành phần như hình dưới: nói bị ngọng nhưng đôi khi cũng là nguyên nhân làm giảm độ chính xác không phản ánh được đúng phân bố xác suất của ngôn ngữ. Tuy đã được chứng minh hiệu quả so với mô hình n-gram truyền thống, các mô hình ngôn ngữ dựa trên mạng nơ-ron vốn thường Hình 1. Hệ thống nhận dạng tiếng nói sử dụng mạng hồi quy (RNN) và biến thể đều Tại khối decoder, hệ thống sẽ sử dụng một gặp phải những vấn đề cố hữu của mạng mô hình ngôn ngữ để đánh giá lại tất cả các RNN đó là: giả thuyết đã nhận dạng được từ đầu ra của - Khó song song hóa. mô hình phát âm (pronunciation model). Số - Tất cả nội dung được mã hóa vào một lượng giả thuyết này có thể lên tới hàng triệu véc-tơ duy nhất. chỉ với một câu nói, do đó mô hình ngôn ngữ - Các từ trong câu có vai trò giống nhau thường được sử dụng là n-gram vì tốc độ tính đối với từ cần dự đoán do đó không thể hiện toán rất nhanh. Trong khối decoder sẽ là một hiệu quả nội dung của câu. lưới từ có dạng như sau: Từ những nhược điểm trên, hiện nay xu thật/0.6 thế trên cộng đồng trí tuệ nhân tạo đang dần tiếc/0.66 2 rất/0.4 4 đẹp/0.5 5 chuyển sang sử dụng mô hình Transfomer [2] 0 Thời/1 1 tiết/0 34 thật/ địp/0.5 3 thay thế cho RNN và đã chứng minh những hiệu quả nhất định. Bài báo này sẽ trình bày Hình 2. Đầu ra của hệ thống nhận dạng thử nghiệm của chúng tôi khi áp dụng mô tiếng nói hình Transformer-XL [1] - biến thể của mạng Kết quả nhận dạng được cuối cùng sẽ là Transformer vào một hệ thống nhận dạng đường đi có xác suất cao nhất theo công thức: tiếng nói tiếng Việt. Theo như chúng tôi được P(w1,…, wm) = Π im=1P( wi | w1 ,...,wi − 1 ) trong biết, hiện chưa có bài báo nào đánh giá hiệu quả của Transformer-XL với tiếng Việt cũng trường hợp này sẽ là: “Thời tiếc thật đẹp”. như việc áp dụng chúng vào một hệ thống Do trong một số lĩnh vực chỉ có một lượng nhận dạng tiếng nói. rất ít dữ liệu nên mô hình ngôn ngữ có thể 192
Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 còn yếu, chưa phản ánh tốt mô hình xác suất 2.3. Transformer-XL của lĩnh vực đó. Hệ quả là độ chính xác của Như đã đề cập khi giới thiệu về hệ thống nhận dạng tiếng nói cũng sẽ bị hạn transformer, khối giải mã sử dụng cả các chế. Trong khi đó, các mô hình ngôn ngữ phần tử đầu ra trước đó để dự đoán từ tiếp hiện đại dựa trên mạng nơ-ron có thể mô theo, rất gần với với mô hình ngôn ngữ. Do hình hóa tốt hơn n-gram nên sẽ tận dụng đó từ mô hình Transformer ban đầu ta có thể được nguồn dữ liệu tốt hơn. bỏ đi khối encoder để mô hình chỉ học cách 2.2. Transformer dự đoán phần tử tiếp theo dựa vào các phần tử đứng trước đó. Mô hình transformer này được giới thiệu trong bài báo “Attention is All You Need” [2] nhắm tới giải quyết bài toán mô hình hoá chuỗi sequence to sequence với hai thành phần chính khối mã hóa - encoder (hình 2 trái) mã hoá chuỗi đầu vào, khối giải mã - decoder (hình 3 phải) giải mã thông tin từ Hình 4. Transfomer-XL encoder kết quả với phần tử đã decode được 2.4. Áp dụng Transfomer-XL vào một từ trước đó để đưa ra dự đoán về phần tử tiếp hệ thống nhận dạng. theo. Với một số điểm đáng chú ý như: - Multi-head attention: Tính toán attention Do lượng giả thuyết cần tính toán là rất lớn với các sub-feature của véc-tơ đầu vào, giống nên chúng tôi sẽ không thay thế trực tiếp mô việc có nhiều ‘góc nhìn’ về đối tượng. hình n-gram trong hệ thống nhận dạng bằng - Position encoding: Mã hóa vị trí của đối mô hình Transfomer-XL mà áp dụng theo tượng từ đó ta không cần phải xử lý tuần tự quy trình 2 bước: như với RNN. - (1) Hệ thống nhận dạng thông thường. - Position wise feed forward: lớp mạng Tuy nhiên thay vì chỉ đưa ra một kết quả feed forward áp dụng với từng vị trí giúp nhận dạng đầu ra của khối decoder sẽ là một Transformer có thể mô hình hoá được chuỗi lưới từ khác. Lưới từ này sẽ giới hạn số giống với RNN. đường đi ra từ một đỉnh để giảm lượng tính toán cho bước sau đánh đổi lại là độ chính xác có thể bị giảm đi. - (2) Đánh giá lại xác suất của lưới từ ở bước (1) với mô hình Transfomer-XL, đưa ra chuỗi từ có xác suất cao nhất. Trong hình 1, ta có thể thấy “thời tiết” sẽ hợp lý hơn nhiều “thời tiếc”. Tuy nhiên có thể do người này nói ngọng cũng như mô hình ngôn ngữ trong hệ thống (1) chưa đánh giá được tốt trường hợp này dẫn tới xác suất của từ “tiếc” lại cao hơn so với từ “tiết”. Lưới từ sau khi đi qua hệ thống (2) sẽ cho ta một lưới từ đã được đánh giá lại như sau: thật/0. 2 rất/0.3 4 đẹp/0.9 5 tiếc/0.25 0 Thời/1 1 thật/ địp/0.1 tiết/0.75 3 Hình 3. Mô hình Transformer Hình 5. Lưới từ sau khi đánh giá lại 193
Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 Theo đó, kết quả đầu ra cuối cùng có xác Như có thể thấy, áp dụng Transformer-XL suất cao nhất sẽ là: “Thời tiết thật đẹp”. vào nhận dạng tiếng nói giúp giảm 5,19% sai số tương đối ở mức từ, gấp 2,5 lần so với khi 3. KẾT QUẢ NGHIÊN CỨU sử dụng mô hình ngôn ngữ dựa trên RNN. Trong bài đánh giá này chúng tôi sẽ xây 4. KẾT LUẬN dựng hai mô hình ngôn ngữ dựa trên Transformer-XL và mô hình RNN để so sánh Mô hình Transfomer-XL cho thấy khả độ hiệu quả của chúng khi dùng để đánh giá năng vượt trội so với RNN khi áp dụng vào lại lưới từ do hệ thống nhận dạng sinh ra. hệ thống nhận dạng tiếng nói dù chỉ với Dữ liệu học cho hai mô hình ngôn ngữ lượng dữ liệu học rất nhỏ. dùng để đánh giá gồm 180941 câu thoại giữa Tuy mang lại kết quả cao nhưng việc sử hai người. dụng mô hình Transformer-XL cũng gặp rất Trong bài thử nghiệm, với mô hình nhiều khó khăn như: Transfomer-XL chúng tôi sử dụng các tham - Mô hình có rất nhiều tham số, dễ dẫn tới số tương tự các tham số được sử dụng trong overfit nên cần tuning tham số cẩn thận. bài báo [1]. Tuy nhiên, do số tham số nhiều - Tốn rất nhiều tài nguyên tính toán. hơn nhiều so với dữ liệu học, nhằm hạn chế Thêm vào đó khi so với mức sai số tối overfit chúng tôi đã áp dụng mức dropout thiểu, hệ thống vẫn còn nhiều khả năng để tối 0,2. Với mô hình RNN, chúng tôi sử dụng ưu hơn nữa. mô hình mặc định từ Recurrent Neural Trong thời gian tới, chúng tôi sẽ sử dụng Network Language Modeling Toolkit [3] thuật toán A* để giới hạn lưới từ hiệu quả phiên bản 0.4. hơn để giảm thiểu số lượng tính toán mà Tập đánh giá sẽ gồm 1000 audio cuộc trò không làm tăng sai số tối thiểu của hệ thống, chuyện điện thoại. Thang đo chúng tôi dùng giúp thử nghiệm có thể đáp ứng tốt hơn yêu để đánh giá trong thử nghiệm là tỉ lệ sai số cầu về hiệu năng khi áp dụng vào thực tế. mức từ (WER%). Kết quả của thử nghiệm được đưa ra trong bảng dưới đây: 5. TÀI LIỆU THAM KHẢO [1] Zihang Dai, Zhilin Yang, Yiming Yang, Bảng 1. Hiệu quả của Transformer-XL Jaime Carbonell, Quoc V. Le, Ruslan so với RNN theo WER (%) Salakhutdinov. 2019. “Transformer-XL: Oracle ASR RNN Transformer- Attentive Language Models Beyond a (WER%) (WER%) (WER%) XL (WER%) Fixed-Length Context”. [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, 25,65 39,08 38,27 37,05 Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. 2017. “Attention Is All You Need”. Trong đó: [3] Mehryar Mohri, Fernando Pereira, Michael Oracle WER: là sai số mức từ tối thiểu mà Riley. 2002. “Weighted Finite-State hệ thống nhận dạng có thể đạt được nếu ta có Transdu cers in Speech Recognition”. một mô hình ngôn ngữ hoàn hảo. [4] Tomas Mikolov, Stefan Kombrink, Anoop ASR WER: là sai số mức từ của hệ thống Deoras, Lukas Burget, Jan Honza Cernocky. nhận dạng (1). 2011. “Recurrent Neural Network Language RNN/Transformer-XL WER: tương ứng là sai Modeling Toolkit” số sau khi được đánh giá lại sử dụng mô hình [5] Stanley F. Chen, Joshua Goodman. 1999. ngôn ngữ dựa trên RNN/ Transformer-XL. “An empirical study of smoothing techniques forlanguage modeling”. 194

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường