Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI TIẾNG
VIỆT SỬ DỤNG MÔ HÌNH NGÔN NGỮ TRANSFORMER-XL
Nguyễn Quang Trung1, Đỗ Văn Hải2
1
Trung tâm Không gian Mạng Viettel
2
Trường Đại học Thủy lợi
1. GIỚI THIỆU CHUNG
2. PHƯƠNG PHÁP NGHIÊN CỨU
Mô hình ngôn ngữ là một thành phần
không thể thiếu trong một hệ thống nhận 2.1. Hệ thống nhận dạng tiếng nói.
dạng tiếng nói hiện đại. Chúng giúp đưa ra Một hệ thống nhận dạng tiếng nói cơ bản
được kết quả chính xác ngay cả khi người thường gồm các thành phần như hình dưới:
nói bị ngọng nhưng đôi khi cũng là nguyên
nhân làm giảm độ chính xác không
phản ánh được đúng phân bố xác suất của
ngôn ngữ.
Tuy đã được chứng minh hiệu quả so với
mô hình n-gram truyền thống, các mô hình
ngôn ngữ dựa trên mạng nơ-ron vốn thường Hình 1. Hệ thống nhận dạng tiếng nói
sử dụng mạng hồi quy (RNN) và biến thể đều Tại khối decoder, hệ thống sẽ sử dụng một
gặp phải những vấn đề cố hữu của mạng mô hình ngôn ngữ để đánh giá lại tất cả các
RNN đó là: giả thuyết đã nhận dạng được từ đầu ra của
- Khó song song hóa. mô hình phát âm (pronunciation model). Số
- Tất cả nội dung được mã hóa vào một lượng giả thuyết này có thể lên tới hàng triệu
véc-tơ duy nhất. chỉ với một câu nói, do đó mô hình ngôn ngữ
- Các từ trong câu có vai trò giống nhau thường được sử dụng là n-gram vì tốc độ tính
đối với từ cần dự đoán do đó không thể hiện toán rất nhanh. Trong khối decoder sẽ là một
hiệu quả nội dung của câu. lưới từ có dạng như sau:
Từ những nhược điểm trên, hiện nay xu
thật/0.6
thế trên cộng đồng trí tuệ nhân tạo đang dần tiếc/0.66 2 rất/0.4 4 đẹp/0.5 5
chuyển sang sử dụng mô hình Transfomer [2] 0 Thời/1 1
tiết/0 34
thật/ địp/0.5
3
thay thế cho RNN và đã chứng minh những
hiệu quả nhất định. Bài báo này sẽ trình bày Hình 2. Đầu ra của hệ thống nhận dạng
thử nghiệm của chúng tôi khi áp dụng mô tiếng nói
hình Transformer-XL [1] - biến thể của mạng Kết quả nhận dạng được cuối cùng sẽ là
Transformer vào một hệ thống nhận dạng đường đi có xác suất cao nhất theo công thức:
tiếng nói tiếng Việt. Theo như chúng tôi được
P(w1,…, wm) = Π im=1P( wi | w1 ,...,wi − 1 ) trong
biết, hiện chưa có bài báo nào đánh giá hiệu
quả của Transformer-XL với tiếng Việt cũng trường hợp này sẽ là: “Thời tiếc thật đẹp”.
như việc áp dụng chúng vào một hệ thống Do trong một số lĩnh vực chỉ có một lượng
nhận dạng tiếng nói. rất ít dữ liệu nên mô hình ngôn ngữ có thể
192
- Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
còn yếu, chưa phản ánh tốt mô hình xác suất 2.3. Transformer-XL
của lĩnh vực đó. Hệ quả là độ chính xác của Như đã đề cập khi giới thiệu về
hệ thống nhận dạng tiếng nói cũng sẽ bị hạn transformer, khối giải mã sử dụng cả các
chế. Trong khi đó, các mô hình ngôn ngữ phần tử đầu ra trước đó để dự đoán từ tiếp
hiện đại dựa trên mạng nơ-ron có thể mô theo, rất gần với với mô hình ngôn ngữ. Do
hình hóa tốt hơn n-gram nên sẽ tận dụng đó từ mô hình Transformer ban đầu ta có thể
được nguồn dữ liệu tốt hơn. bỏ đi khối encoder để mô hình chỉ học cách
2.2. Transformer dự đoán phần tử tiếp theo dựa vào các phần
tử đứng trước đó.
Mô hình transformer này được giới thiệu
trong bài báo “Attention is All You Need”
[2] nhắm tới giải quyết bài toán mô hình hoá
chuỗi sequence to sequence với hai thành
phần chính khối mã hóa - encoder (hình 2
trái) mã hoá chuỗi đầu vào, khối giải mã -
decoder (hình 3 phải) giải mã thông tin từ Hình 4. Transfomer-XL
encoder kết quả với phần tử đã decode được 2.4. Áp dụng Transfomer-XL vào một
từ trước đó để đưa ra dự đoán về phần tử tiếp hệ thống nhận dạng.
theo. Với một số điểm đáng chú ý như:
- Multi-head attention: Tính toán attention Do lượng giả thuyết cần tính toán là rất lớn
với các sub-feature của véc-tơ đầu vào, giống nên chúng tôi sẽ không thay thế trực tiếp mô
việc có nhiều ‘góc nhìn’ về đối tượng. hình n-gram trong hệ thống nhận dạng bằng
- Position encoding: Mã hóa vị trí của đối mô hình Transfomer-XL mà áp dụng theo
tượng từ đó ta không cần phải xử lý tuần tự quy trình 2 bước:
như với RNN. - (1) Hệ thống nhận dạng thông thường.
- Position wise feed forward: lớp mạng Tuy nhiên thay vì chỉ đưa ra một kết quả
feed forward áp dụng với từng vị trí giúp nhận dạng đầu ra của khối decoder sẽ là một
Transformer có thể mô hình hoá được chuỗi lưới từ khác. Lưới từ này sẽ giới hạn số
giống với RNN. đường đi ra từ một đỉnh để giảm lượng tính
toán cho bước sau đánh đổi lại là độ chính
xác có thể bị giảm đi.
- (2) Đánh giá lại xác suất của lưới từ ở
bước (1) với mô hình Transfomer-XL, đưa ra
chuỗi từ có xác suất cao nhất.
Trong hình 1, ta có thể thấy “thời tiết” sẽ
hợp lý hơn nhiều “thời tiếc”. Tuy nhiên có
thể do người này nói ngọng cũng như mô
hình ngôn ngữ trong hệ thống (1) chưa đánh
giá được tốt trường hợp này dẫn tới xác suất
của từ “tiếc” lại cao hơn so với từ “tiết”.
Lưới từ sau khi đi qua hệ thống (2) sẽ cho
ta một lưới từ đã được đánh giá lại như sau:
thật/0.
2 rất/0.3 4 đẹp/0.9 5
tiếc/0.25
0 Thời/1 1 thật/ địp/0.1
tiết/0.75
3
Hình 3. Mô hình Transformer Hình 5. Lưới từ sau khi đánh giá lại
193
- Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
Theo đó, kết quả đầu ra cuối cùng có xác Như có thể thấy, áp dụng Transformer-XL
suất cao nhất sẽ là: “Thời tiết thật đẹp”. vào nhận dạng tiếng nói giúp giảm 5,19% sai
số tương đối ở mức từ, gấp 2,5 lần so với khi
3. KẾT QUẢ NGHIÊN CỨU sử dụng mô hình ngôn ngữ dựa trên RNN.
Trong bài đánh giá này chúng tôi sẽ xây
4. KẾT LUẬN
dựng hai mô hình ngôn ngữ dựa trên
Transformer-XL và mô hình RNN để so sánh Mô hình Transfomer-XL cho thấy khả
độ hiệu quả của chúng khi dùng để đánh giá năng vượt trội so với RNN khi áp dụng vào
lại lưới từ do hệ thống nhận dạng sinh ra. hệ thống nhận dạng tiếng nói dù chỉ với
Dữ liệu học cho hai mô hình ngôn ngữ lượng dữ liệu học rất nhỏ.
dùng để đánh giá gồm 180941 câu thoại giữa Tuy mang lại kết quả cao nhưng việc sử
hai người. dụng mô hình Transformer-XL cũng gặp rất
Trong bài thử nghiệm, với mô hình nhiều khó khăn như:
Transfomer-XL chúng tôi sử dụng các tham - Mô hình có rất nhiều tham số, dễ dẫn tới
số tương tự các tham số được sử dụng trong overfit nên cần tuning tham số cẩn thận.
bài báo [1]. Tuy nhiên, do số tham số nhiều - Tốn rất nhiều tài nguyên tính toán.
hơn nhiều so với dữ liệu học, nhằm hạn chế Thêm vào đó khi so với mức sai số tối
overfit chúng tôi đã áp dụng mức dropout thiểu, hệ thống vẫn còn nhiều khả năng để tối
0,2. Với mô hình RNN, chúng tôi sử dụng ưu hơn nữa.
mô hình mặc định từ Recurrent Neural Trong thời gian tới, chúng tôi sẽ sử dụng
Network Language Modeling Toolkit [3] thuật toán A* để giới hạn lưới từ hiệu quả
phiên bản 0.4. hơn để giảm thiểu số lượng tính toán mà
Tập đánh giá sẽ gồm 1000 audio cuộc trò không làm tăng sai số tối thiểu của hệ thống,
chuyện điện thoại. Thang đo chúng tôi dùng giúp thử nghiệm có thể đáp ứng tốt hơn yêu
để đánh giá trong thử nghiệm là tỉ lệ sai số cầu về hiệu năng khi áp dụng vào thực tế.
mức từ (WER%). Kết quả của thử nghiệm
được đưa ra trong bảng dưới đây: 5. TÀI LIỆU THAM KHẢO
[1] Zihang Dai, Zhilin Yang, Yiming Yang,
Bảng 1. Hiệu quả của Transformer-XL
Jaime Carbonell, Quoc V. Le, Ruslan
so với RNN theo WER (%) Salakhutdinov. 2019. “Transformer-XL:
Oracle ASR RNN Transformer- Attentive Language Models Beyond a
(WER%) (WER%) (WER%) XL (WER%) Fixed-Length Context”.
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar,
25,65 39,08 38,27 37,05 Jakob Uszkoreit, Llion Jones, Aidan N.
Gomez, Lukasz Kaiser, Illia Polosukhin.
2017. “Attention Is All You Need”.
Trong đó: [3] Mehryar Mohri, Fernando Pereira, Michael
Oracle WER: là sai số mức từ tối thiểu mà Riley. 2002. “Weighted Finite-State
hệ thống nhận dạng có thể đạt được nếu ta có Transdu cers in Speech Recognition”.
một mô hình ngôn ngữ hoàn hảo. [4] Tomas Mikolov, Stefan Kombrink, Anoop
ASR WER: là sai số mức từ của hệ thống Deoras, Lukas Burget, Jan Honza Cernocky.
nhận dạng (1). 2011. “Recurrent Neural Network Language
RNN/Transformer-XL WER: tương ứng là sai Modeling Toolkit”
số sau khi được đánh giá lại sử dụng mô hình [5] Stanley F. Chen, Joshua Goodman. 1999.
ngôn ngữ dựa trên RNN/ Transformer-XL. “An empirical study of smoothing
techniques forlanguage modeling”.
194
nguon tai.lieu . vn