Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 1

Trang 1

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 2

Trang 2

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 3

Trang 3

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 4

Trang 4

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 5

Trang 5

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 6

Trang 6

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 7

Trang 7

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 8

Trang 8

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 9

Trang 9

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 140 trang Hà Tiên 27/02/2024 1360
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt
giá và nâng cao chất lượng hệ thống dịch. 
Từ các phân tích trên, luận án đề xuất sử dụng thêm một số chỉ số để đo chi 
phí của con người khi tham gia chỉnh sửa từ bản dịch của máy tính sang bản dịch 
hồn chỉnh. 
Chỉ số thời gian: đo thời gian cần thiết để con người chỉnh sửa kết quả dịch từ 
hệ thống dịch tự động thành bản dịch đúng. Khi cĩ kết quả dịch từ hệ thống dịch tự 
động, con người cần tiếp tục kiểm tra, rà sốt và sửa lỗi để cho ra bản dịch chính xác. 
63 
Thời gian sửa lỗi càng ít thì hệ thống dịch càng chính xác. Hệ thống đánh giá chất 
lượng dịch tự động sẽ cĩ nhiệm vụ đo và tính tốn chỉ số thời gian này. 
Tpe = T/N 
T: Thời gian sửa bản dịch được tính từ khi người dùng chọn chức năng “Sửa 
bản dịch” cho đến khi người dùng xác nhận “Gửi kết quả”. 
N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, 
khơng tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dịng) và các dấu câu. 
Chỉ số thao tác: đo số lượng ký tự cần thay đổi để sửa kết quả dịch thành bản 
dịch đúng. 
Ope = (D + I) / N 
Trong đĩ: 
(D + I) là số lượng ký tự mà người dùng đã thay đổi, bao gồm thao tác xĩa, 
thêm, sửa để hiệu chỉnh bản dịch. 
D: số lượng ký tự bị người dùng xĩa 
I: số lượng ký tự được người dùng thêm mới 
Mỗi thao tác ghi đè được tính bằng một thao tác xĩa và một thao tác thêm mới. 
N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, 
khơng tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dịng) và các dấu câu. 
Như vậy, Chỉ số thời gian Tpe là thời gian trung bình để chỉnh sửa một ký tự 
tính trên bản dịch kết quả. Chỉ số thao tác Ope là số lượng ký tự trung bình cần chỉnh 
sửa tính trên mỗi ký tự ở bản dịch đúng. Các chỉ số này càng thấp thì hệ thống dịch 
càng chất lượng. Tpe = 0 hoặc Ope = 0 khi bản dịch do máy tính đưa ra hồn tồn chính 
xác, khơng cần sửa chữa (do người dùng xác nhận). 
Từ các chỉ số Tpe và Ope, chúng ta cĩ thể đánh giá được mức độ chính xác của 
bản dịch do các hệ thống dịch tự động đưa ra. Kết quả đánh giá này hồn tồn dựa 
trên bản dịch gốc của máy tính thơng qua sự chỉnh sửa của con người, nên khơng cần 
các bản dịch tham khảo mà vẫn cho ra kết quả đánh giá chính xác và phù hợp nhất. 
(2.1) 
(2.2) 
64 
Ngồi ra cĩ thể so sánh chất lượng của các hệ thống dịch tự động (chẳng hạn giữa 
Google và Microsoft) một cách chính xác và khách quan mà khơng phụ thuộc vào 
bản dịch chuẩn của dữ liệu mẫu. 
Hình 2.5. Chương trình tính chỉ số Tpe và Ope thơng qua quá trình hiệu đính 
Đối chiếu với chỉ số WER (trình bày tại mục 1.2.3) hoặc chỉ số ED (khoảng 
cách Edit Distance), chúng ta thấy rằng đây là hai chỉ số để đo khoảng cách giữa hai 
chuỗi bằng cách tính tốn số bước ngắn nhất để biến đổi một chuỗi X thành chuỗi Y 
thơng qua các thao tác thêm, sửa, xĩa. Trong trường hợp lý tưởng, người dùng sẽ thực 
hiện số bước ngắn nhất để hiệu chỉnh bản dịch, khi đĩ giá trị WER hồn tồn trùng 
khớp với giá trị Ope. Ở đây mỗi thao tác thay thế (S) sẽ bằng một lần xĩa (D) và một 
lần thêm mới (I). 
ܹܧܴ = ܵ + ܫ + ܦ
ܰ
= (ܫ + ܦ) + ܫ + ܦ
ܰ
= ௣ܱ௘ 
Trên thực tế, số bước người dùng chỉnh sửa cĩ thể sẽ nhiều hơn so với giá trị 
(S + I + D). Qua thực nghiệm với một số bộ dữ liệu và quá trình hiệu đính thực tế, 
cĩ thể thấy rằng giá trị Ope và Tpe thay đổi tỷ lệ thuận với giá trị WER và ED. 
65 
2.2.3.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá chất lượng 
Hiện nay, khơng phải hệ thống nào cũng hỗ trợ thao tác hiệu đính để giúp 
người dùng chỉnh sửa kết quả bản dịch máy thành bản dịch chính xác và cĩ thể sử 
dụng được. Ở các hệ thống này, người dùng chỉ cĩ thể xem kết quả bản dịch, sau đĩ 
cĩ thể sao chép sang các trình soạn thảo văn bản khác để tiếp tục chỉnh sửa hồn thiện 
bản dịch này. Như vậy các hoạt động hiệu đính chỉ phục vụ cho mục đích của người 
sử dụng, chứ chưa được ứng dụng để cải thiện và đánh giá hệ thống dịch. 
Các hoạt động hiệu đính và đánh giá chất lượng được thực hiện tách rời nhau 
và khơng kế thừa kết quả của nhau. Vì vậy, nghiên cứu đề xuất kết hợp các hoạt động 
hiệu đính bản dịch máy với đánh giá chất lượng, giúp giảm chi phí và nâng cao độ 
chính xác. Để làm được điều này, cần xây dựng hệ thống đánh giá chất lượng dịch 
tiếng Anh – tiếng Việt của các hệ thống dịch tự động trực tuyến (như Google, 
Microsoft) thơng qua các thao tác hậu xử lý với các đặc điểm sau: 
Hình 2.6. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 
Hệ thống dịch tự 
động (thủ cơng, 
hàm API) 
Kho ngữ liệu đơn 
ngữ tiếng Anh 
Kết quả dịch (Tài 
liệu tiếng Việt) 
Hiệu đính bản dịch 
Tính chỉ số Tpe và Ope 
Bổ sung dữ liệu song ngữ 
Đánh giá 
chất lượng 
Đánh giá 
BLEU, NIST... 
 Cải thiện chất lượng 
mơ hình dịch 
66 
- Kho ngữ liệu nguồn: là kho ngữ liệu đơn ngữ (tiếng Anh), chưa được dịch 
sang tiếng Việt. 
- Kết quả dịch: Từ câu nguồn tiếng Anh (cần dịch), sử dụng các hệ thống dịch 
tự động trực tuyến để lấy kết quả bản dịch (thực hiện thủ cơng, sử dụng các hàm API 
hoặc các kỹ thuật khác) là câu đích ở tiếng Việt. Đây là kết quả “dịch thơ”, chưa chính 
xác và cần quá trình hiệu đính của con người. 
- Hiệu đính bản dịch: Cho phép người dùng kiểm tra và chỉnh sửa bản dịch 
tiếng Việt này để cĩ được bản dịch chính xác mà khơng cần dựa trên các bản dịch cĩ 
sẵn. 
- Đánh giá chất lượng: theo dõi và đo các chỉ số về thời gian (Tpe) và thao tác 
(Ope) để đánh giá chất lượng của các bản dịch. 
- Xây dựng kho ngữ liệu: sau quá trình hiệu đính, hệ thống thu được các cặp 
câu nguồn tiếng Anh và bản dịch tiếng Việt đã được chỉnh sửa. Các cặp câu song ngữ 
này được sử dụng để tạo kho ngữ liệu tương ứng. 
- Đánh giá chất lượng bằng các phương pháp khác: khi đã cĩ kho ngữ liệu 
song ngữ, chúng ta cĩ thể tiếp tục hoạt động đánh giá bằng các số đo khác như đã 
trình bày ở trên, từ đĩ cĩ thể đối chiếu, so sánh giữa các thang đo. 
- Cải thiện chất lượng hệ thống dịch: bản dịch sau khi được con người sửa 
chữa sẽ được sử dụng để cải thiện chất lượng của hệ thống dịch. Ở các lần dịch tiếp 
theo, kết quả của hệ thống dịch chắc chắn sẽ tốt hơn. 
2.2.3.4. Thực nghiệm 
Để triển khai thực nghiệm quá trình hiệu đính bản dịch máy kết hợp đánh giá 
chất lượng bản dịch và xây dựng kho ngữ liệu, NCS triển khai các bước sau: 
- Bước 1: Lấy 500 câu song ngữ tiếng Anh – tiếng Việt từ các đoạn hội thoại 
đã được dịch trong tài liệu học tiếng Anh ở chủ đề thơng dụng là “Cuộc sống hàng 
ngày”. Dữ liệu này được chia thành 5 bộ để thực nghiệm. Câu tiếng Anh (E) là câu 
nguồn cần dịch, câu tiếng Việt được xem là bản dịch tham chiếu (V). 
67 
- Bước 2: Xây dựng chương trình sử dụng các dịch vụ được cung cấp của hệ 
thống dịch Google, Microsoft để tự động gửi các câu nguồn tiếng Anh (E) và lấy về 
các bản dịch tiếng Việt (V1) từ các hệ thống dịch đĩ. Dùng bản dịch của kho ngữ liệu 
(V) để làm câu tham chiếu, đo các chỉ số đánh giá (D1) theo thuật tốn Edit Distance 
(ED), Word Error Rate (WER), BLEU, NIST để so sánh sự tương đồng giữa hai câu 
V và V1. Chỉ số Edit Distance cho biết số lượng từ và ký tự khác nhau giữa 2 câu, 
Word Error Rate đo tỷ lệ lỗi giữa câu dịch và câu tham chiếu, cịn chỉ số BLEU và 
NIST tính tốn mức độ khác nhau dựa trên n-grams. Kết quả thu được ở Bảng 2.5. 
- Bước 4: Xây dựng hệ thống cho phép người dùng hiệu chỉnh các bản dịch. 
Quá trình này được tự động đo thời gian và đếm số lượng thao tác mà người dùng 
thực hiện để hiệu chỉnh. Từ đĩ tính tốn chỉ số Tpe và Ope để đánh giá chất lượng bản 
dịch. Bản dịch hiệu chỉnh (V2) được đưa vào kho ngữ liệu để làm câu tham chiếu. 
Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu 
 BLEU NIST ED WER 
Test 1 24,2 1,563 6,739 0,886 
Test 2 54,2 2,876 5,684 0,561 
Test 3 29,2 1,972 7,000 0,814 
Test 4 27,3 2,450 9,286 0,757 
Test 5 38,0 2,546 8,067 0,634 
- Tiếp tục sử dụng hệ thống để tính tốn lại các chỉ số Edit Distance, Word 
Error Rate, BLEU, NIST (D2) giữa hai câu V1 và V2. So sánh D1 và D2. Kết quả 
được thể hiện ở Bảng 2.6. 
Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch 
 Tpe Ope BLEU NIST ED WER 
Test 1 0,649 1,385 55,3 2,304 3,913 0,403 
Test 2 0,211 0,717 78,9 3,281 1,632 0,142 
68 
 Tpe Ope BLEU NIST ED WER 
Test 3 0,199 0,945 84,9 3,006 1,071 0,102 
Test 4 0,506 1,250 63,1 3,170 3,500 0,301 
Test 5 0,550 1,265 67,7 3,130 4,133 0,257 
Từ kết quả này, chúng ta cĩ thể thấy được sự tương đồng giữa chỉ số Tpe, Ope với 
các chỉ số Edit Distance và Word Error Rate thơng qua đồ thị ở 
Hình 2.7. Khi chỉ số Tpe, Ope tăng thì tương tứng chỉ số ED và WER cũng tăng 
và ngược lại. 
Hình 2.7. Sự tương đồng giữa Tpe, Ope và ED, WER 
Khi so sánh kết quả bản dịch với câu tham chiếu thu được từ quá trình hiệu 
chỉnh, các chỉ số BLEU và NIST đã tốt hơn (Hình 2.8) và việc đánh giá khơng phụ 
thuộc vào các bản dịch cĩ sẵn, thể hiện được tính khách quan khi đánh giá kết quả 
của hệ thống dịch. 
G
iá
 tr
ị đ
o 
cá
c 
ch
ỉ s
ố 
Bộ dữ liệu 
69 
Hình 2.8. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh 
2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn 
 Tổng quan 
Các chiến dịch đánh giá chất lượng dịch tự động như CSTAR, NESPOLE, 
IWSLT [14] đã được tổ chức rất quy mơ với nhiều phương pháp đánh giá chủ quan 
và khách quan khác nhau đã cho thấy rằng chất lượng dịch tự động đối với các cặp 
ngơn ngữ phổ biến cũng chỉ chấp nhận được với một số lĩnh vực nhất định và cĩ chất 
lượng rất kém nếu như kho ngữ khơng đảm bảo cả về chất lượng và khối lượng. 
Mặc dù hiện nay tồn tại nhiều kho dữ liệu dùng trong lĩnh vực tự động, song 
các kho ngữ liệu này đều cĩ những nhược điểm đáng kể. Nhiều nguồn tài nguyên dữ 
liệu được tạo ra như các kho ngữ liệu British National Corpus, EuroParl, BTEC, 
ANC, ICE; các bộ từ điển như German dictionary Deutsches Wưrterbuch, Oxford 
English Dictionar, Gregg Cox  cĩ số lượng ngơn ngữ và khối lượng dữ liệu tương 
đối lớn. Tuy vậy, so với số lượng ngơn ngữ tự nhiên trên thế giới hiện nay (khoảng 
6.500 ngơn ngữ nĩi) và khối lượng dữ liệu đủ để bao phủ hầu hết các lĩnh vực dịch 
thì các kho ngữ liệu trên so ra cịn quá khiêm tốn để cĩ thể cho phép xây dựng được 
một hệ thống dịch tự động chất lượng cao. Mặt khác, các kho ngữ liệu hiện nay cĩ 
chất lượng cịn khá thấp, dữ liệu đa số ở dạng thơ và nhập nhằng, bởi lẽ đa số các kho 
ngữ liệu tồn tại dưới dạng văn bản hoặc chỉ cĩ một số ít thơng tin mơ tả đi kèm [40]. 
Một vấn đề khác là các kho ngữ liệu tồn tại một cách rời rạc, cĩ cấu trúc và 
định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khĩ 
Bộ dữ liệu 
G
iá
 tr
ị đ
o 
cá
c 
ch
ỉ s
ố 
70 
khăn. Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng 
khơng thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt. 
Như phân tích ở Chương I, để cĩ thể xây dựng được một hệ thống dịch tự động 
chất lượng và hồn chỉnh, ngồi việc nghiên cứu cải tiến phương pháp dịch tự động, 
vấn đề quan trọng cần giải quyết đĩ là nghiên cứu giải pháp xây dựng được kho ngữ 
liệu lớn khơng chỉ về khối lượng dữ liệu, số cặp ngơn ngữ mà cịn tốt về chất lượng. 
Nội dung nghiên cứu của chương này tập trung đánh giá thực trạng chất lượng 
các kho ngữ liệu hiện cĩ, hiểu các giải pháp xây dựng kho ngữ liệu và đề xuất các 
giải pháp mở rộng kho ngữ liệu cả về khía cạnh khối lượng và khía cạnh chất lượng, 
nhằm hướng đến giải pháp cải tiến chất lượng dịch của các hệ thống dịch tự động nĩi 
chung và nhất là các hệ thống dịch tự động tiếng Việt hiện nay: 
- Tổng hợp các nghiên cứu liên quan đến kho ngữ liệu, cấu trúc các kho ngữ 
liệu và kết quả xây dựng và cải tiến chất lượng các kho ngữ liệu song ngữ tiếng Việt. 
- Đề xuất một số giải pháp cải tiến kho ngữ liệu ở khía cạnh mở rộng khối 
lượng và cải tiến chất lượng của kho ngữ liệu. 
- Thực nghiệm giải pháp cải tiến chất lượng thơng qua xác định danh từ riêng, 
xác định ranh giới từ ghép, xây dựng ứng dụng thu thập kho ngữ liệu lớn phục vụ quá 
trình huấn luyện hệ thống dịch tự động. 
 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 
2.3.2.1. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối 
lượng 
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng khối lượng, phần 
lớn các nghiên cứu tập trung đến các phương pháp và cơng trình liên quan đến hai 
vấn đề sau: 
- Mở rộng kho ngữ liệu theo hướng ngơn ngữ: Các cơng trình [40][48] đã đưa 
ra giải pháp mở rộng kho ngữ liệu theo hướng ngơn ngữ bằng cách gọi các hệ thống 
dịch tự động để dịch dữ liệu hiện cĩ của kho ngữ liệu sang các ngơn ngữ mới, sau đĩ 
đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu cĩ chất 
lượng trong ngơn ngữ mới tương đồng với dữ liệu gốc. 
71 
- Mở rộng kho ngữ liệu theo hướng xây dựng và bổ sung dữ liệu: Liên quan 
đến vấn đề xây dựng và bổ sung dữ liệu mới vào kho ngữ liệu, cĩ thể kể đến các 
phương pháp xây dựng dữ liệu mới [48][49][50]. Các cơng trình này đề xuất việc xây 
dựng nội dung mới cĩ chất lượng cho kho dữ liệu dịch tự động bằng cách trích lọc 
dữ liệu từ các kho dữ liệu hỗn tạp trong thực tế. Đề xuất tại [51], cơng trình này đưa 
ra đề xuất xây dựng nội dung mới cho kho ngữ liệu bằng cách thu thập, trích lọc các 
câu song song từ các website đa ngữ. 
2.3.2.2. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía cạnh chất 
lượng 
Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng chất lượng, đã cĩ 
các giải pháp và cơng cụ để cải tiến chất lượng dữ liệu bằng cách sinh mới và chỉnh 
sửa dữ liệu dịch. Trong đĩ, nổi bật nhất là hệ thống SECTra_w [48], hệ thống này 
cho phép người dùng nạp kho ngữ liệu vào và hiển thị kho ngữ liệu một cách trực 
quan, dạng song song rất thuận tiện cho việc kiểm tra và cải tiến chất lượng văn bản. 
Hệ thống này cũng là một mơi trường cộng tác cho phép nhiều người tham gia cải 
tiến và chỉnh sửa kho ngữ liệu. Các các cơng cụ khác cũng đã được xây dựng như 
Mtpost-editor, phát triển bởi NIST, hoặc cơng cụ SYSTRAN Review Manager được 
dùng ở cơng ty Systran. Ngồi ra, chúng ta cũng tìm thấy một số hệ thống được triển 
khai dưới mơ hình mạng như Google Translator Toolkit, BEYtrans, Yakushite.net, 
Translationwiki.net, Traduwiki, Caitra [52]. 
Bên cạnh đĩ, cĩ các cơng trình nghiên cứu các giải pháp và xây dựng các kho 
ngữ liệu gán nhãn nhằm biểu diễn thêm ngữ nghĩa cho kho ngữ liệu như [39], nghiên 
cứu xây dựng, chuẩn hĩa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng 
Việt, xây dựng các mơ hình chú giải cho kho ngữ liệu tiếng Việt [13]. 
 Giải pháp nâng cao chất lượng kho ngữ liệu 
Vấn đề nâng cao chất lượng của kho ngữ liệu đĩng vai trị quan trọng nhằm 
hồn thiện các giải pháp trong vấn đề xử lý ngơn ngữ tự nhiên như dịch máy, phân 
loại văn bản Trong nghiên cứu này, giải pháp mở rộng kho ngữ liệu được tập trung 
chủ yếu vào hai hướng nghiên cứu chính gồm mở rộng kho ngữ liệu theo hướng khối 
lượng và theo hướng chất lượng. 
72 
Như đã đề cập ở phần trên, nếu cĩ được kho ngữ liệu đa ngữ đủ lớn về khối 
lượng, tốt về chất lượng thì chắc chắn chúng ta sẽ cải tiến được chất lượng dịch của 
các hệ thống dịch tự động hiện nay. Do đĩ, vấn đề nghiên cứu và đề xuất các giải 
pháp mở rộng kho ngữ liệu là hết sức cần thiết để cải tiến chất lượng dịch tự động. 
Giải pháp nâng cao kho ngữ liệu được đề xuất trong nghiên cứu này bao gồm: 
- Mở rộng hay làm tăng thêm khối lượng kho ngữ liệu; 
- Cải tiến chất lượng dữ liệu của các kho ngữ liệu. 
2.3.3.1. Mở rộng khối lượng kho ngữ liệu 
Để cĩ thể mở rộng khối lượng kho ngữ liệu thơng qua các giải pháp khác nhau, 
nghiên cứu sinh đã tiến hành nghiên cứu và phân tích các kho ngữ liệu phổ biến đại 
diện cho các loại kho ngữ liệu phổ biến hiện nay gồm: JRC-ACQUIS, EUROPARL, 
ERIM và EOLSS/UNL. Từ việc phân tích bốn kho ngữ liệu trên, chúng ta cĩ được 
bảng tĩm tắt đặc trưng của các kho ngữ liệu trên sau đây. 
Bảng 2.7. Bảng tĩm tắt đặc trưng các kho ngữ liệu phổ biến 
Kho ngữ liệu Tổ chức vật lý Định dạng dữ liệu Mức liên kết 
JRC-ACQUIS Gồm nhiều thư mục, 
mỗi thư mục chứa 
các tệp liên kết với 
nhau 
XML theo chuẩn TEI 
Tệp hoặc 
đoạn hoặc 
câu hoặc từ 
EUROPARL TXT 
ERIM TXT, XML và WAV 
EOLSS/UNL HTML và UNL 
Ở dạng trực quan, mối quan hệ giữa các dạng dữ liệu của các kho ngữ liệu cĩ 
thể tĩm tắt theo hình vẽ như sau: 
Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu 
73 
Từ việc phân tích các kho ngữ liệu trên, cĩ thể xác định được cấu trúc và định 
dạng chuẩn cho các kho ngữ liệu như sau: cấu trúc vật lý chuẩn của một kho ngữ liệu 
phải bao gồm nhiều thư mục và mỗi thư mục chứa đựng các tệp ở một định dạng nào 
đĩ. Trong đĩ, mỗi kho ngữ liệu phải chứa đựng các tệp mơ tả ở mức độ khác nhau: 
mơ tả ở mức kho ngữ liệu, mơ tả ở mức tài liệu và mơ tả ở mức các phân đoạn bên 
trong. Cụ thể, cấu trúc của một kho ngữ liệu được đề xuất gồm hai phần: 
Phần tiêu đề (header) chứa thơng tin về ngữ liệu, ngơn ngữ, ngày tạo, 
Phần thân (body) chứa thơng tin của các loại tài liệu: , 
,Mỗi tài liệu chứa mơ tả cấu trúc phân cấp của nĩ: chương, trang, 
mục, và mơ tả phân đoạn: (, , , Trong đĩ, mơ tả đoạn chứa 
các thơng tin: nguồn, bản dịch trước, bối cảnh, bài chỉnh sửa, âm thanh, điểm số, đồ 
thị UNL, 
Đối với định dạng chuẩn của kho ngữ liệu, nghiên cứu sử dụng định dạng 
XML và đề xuất như sau: 
<! ELEMENT header (name, date, domain, authors, project, Nlang, 
lang, 
* othermeta *)> 
74 
Hình 2.10. Định dạng chuẩn biểu diễn kho ngữ liệu 
Đối với việc mở rộng khối lượng kho ngữ liệu, luận án đề xuất hai giải pháp 
cụ thể gồm: 
- Giải pháp hợp nhất các kho ngữ liệu hiện cĩ để tạo ra một kho ngữ liệu lớn 
hơn. 
- Giải pháp xây dựng hệ thống cho phép mở rộng ngơn ngữ cũng như thêm dữ 
liệu vào kho ngữ liệu. 
a) Hợp nhất các kho ngữ liệu 
Trong các cơng trình nghiên cứu [48][14][53] đã chỉ rõ rằng, hiện nay tồn tại 
rất nhiều kho ngữ liệu cĩ kích thước, số lượng ngơn ngữ, định dạng và cấu trúc khác 
nhau. Hợp nhất các kho ngữ liệu chính là tìm cách trộn, liên kết các kho ngữ liệu này 
lại với nhau để tạo nên một kho ngữ liệu lớn hơn cĩ cùng cấu trúc, định dạng và với 
nhiều cặp ngơn ngữ hơn. Ví dụ, cĩ 2 kho ngữ liệu song song: kho thứ nhất (R1) gồm 
2 cặp ngơn ngữ Anh-Pháp và Anh-Việt gồm 5.000 cặp câu; kho thứ hai (R2) gồm 2 
cặp ngơn ngữ Anh-Việt và Việt-Khmer gồm 5.000 cặp câu. Sau khi hợp nhất 2 kho 
ngữ liệu trên, chúng ta sẽ cĩ được một kho ngữ liệu lớn hơn cĩ số lượng từ 5.000 đến 
10.000 cặp câu với 3 cặp ngơn ngữ Anh-Pháp, Anh-Việt, Anh-Khmer và cĩ thể xây 
dựng thêm các kho ngữ liệu mới Pháp-Việt, Việt-Khmer. Một cách tổng quát, nếu 
xem mỗi kho ngữ liệu là một tập hợp (Ri), gồm các cặp câu và các cặp ngơn ngữ thì 
kho ngữ liệu hợp nhất (Ru) sẽ là kết quả của phép hợp của các kho ngữ liệu thành 
viên và được biểu diễn bởi cơng thức sau: 
(3.1) 
75 
Ru = R1 ∪ R2 ∪ R3 ∪..∪ Rn = ⋃ ܴ௜௡௜ୀଵ 
Thuật tốn đề xuất để hợp nhất hai kho ngữ liệu R1 và R2, chứa các bộ dữ liệu 
thuộc ngơn ngữ L1 và L2, với độ phức tạp thuật tốn O(n2) được mơ phỏng như sau: 
Giải pháp hợp nhất các kho ngữ liệu sẽ bao gồm một số vấn đề cụ thể cần giải 
quyết như sau: 
o Hợp nhất dữ liệu 
Hợp nhất dữ liệu tức là liên kết dữ liệu (alignment) hay là xác định tính tương 
đồng giữa các đơn vị dữ liệu cùng hoặc khác ngơn ngữ của các kho ngữ liệu. 
Liên kết các đơn vị dữ liệu cùng một ngơn ngữ giữa các kho ngữ liệu thực chất 
là quá trình so sánh văn bản để tìm ra được các cặp đơn vị dữ liệu giữa các kho ngữ 
liệu tương đồng với nhau. Nếu xét ở mức so sánh chuỗi ký tự, việc liên kết dữ liệu dễ 
dàng được thực hiện thơng qua việc áp dụng một số thuật tốn phổ biến hiện nay như 
Edit distance, BLEU, NIST, WER, Nếu xét ở mức độ so sánh ngữ nghĩa, việc liên 
kết dữ liệu sẽ rất phức tạp. Tuy nhiên, với mục đích hợp nhất dữ liệu các kho ngữ 
liệu, chúng ta chỉ dừng lại ở mức so sánh chuỗi ký tự. Một cách tổng quát, liên kết dữ 
liệu cùng ngơn ngữ giữa hai

File đính kèm:

  • pdfluan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf
  • pdf0. Phụ lục Bìa luận án.pdf
  • pdf2. Tóm tắt tiếng Việt.pdf
  • pdf3. Tóm tắt tiếng Anh.pdf
  • pdf4. Thông tin đóng góp mới tiếng Việt.pdf
  • pdf5. Thông tin đóng góp mới tiếng Anh.pdf
  • pdf6. Trích yếu luận án tiếng Việt.pdf
  • pdf7. Trích yếu luận án tiếng Anh.pdf