Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động Tiếng Việt
giá và nâng cao chất lượng hệ thống dịch. Từ các phân tích trên, luận án đề xuất sử dụng thêm một số chỉ số để đo chi phí của con người khi tham gia chỉnh sửa từ bản dịch của máy tính sang bản dịch hồn chỉnh. Chỉ số thời gian: đo thời gian cần thiết để con người chỉnh sửa kết quả dịch từ hệ thống dịch tự động thành bản dịch đúng. Khi cĩ kết quả dịch từ hệ thống dịch tự động, con người cần tiếp tục kiểm tra, rà sốt và sửa lỗi để cho ra bản dịch chính xác. 63 Thời gian sửa lỗi càng ít thì hệ thống dịch càng chính xác. Hệ thống đánh giá chất lượng dịch tự động sẽ cĩ nhiệm vụ đo và tính tốn chỉ số thời gian này. Tpe = T/N T: Thời gian sửa bản dịch được tính từ khi người dùng chọn chức năng “Sửa bản dịch” cho đến khi người dùng xác nhận “Gửi kết quả”. N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, khơng tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dịng) và các dấu câu. Chỉ số thao tác: đo số lượng ký tự cần thay đổi để sửa kết quả dịch thành bản dịch đúng. Ope = (D + I) / N Trong đĩ: (D + I) là số lượng ký tự mà người dùng đã thay đổi, bao gồm thao tác xĩa, thêm, sửa để hiệu chỉnh bản dịch. D: số lượng ký tự bị người dùng xĩa I: số lượng ký tự được người dùng thêm mới Mỗi thao tác ghi đè được tính bằng một thao tác xĩa và một thao tác thêm mới. N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, khơng tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dịng) và các dấu câu. Như vậy, Chỉ số thời gian Tpe là thời gian trung bình để chỉnh sửa một ký tự tính trên bản dịch kết quả. Chỉ số thao tác Ope là số lượng ký tự trung bình cần chỉnh sửa tính trên mỗi ký tự ở bản dịch đúng. Các chỉ số này càng thấp thì hệ thống dịch càng chất lượng. Tpe = 0 hoặc Ope = 0 khi bản dịch do máy tính đưa ra hồn tồn chính xác, khơng cần sửa chữa (do người dùng xác nhận). Từ các chỉ số Tpe và Ope, chúng ta cĩ thể đánh giá được mức độ chính xác của bản dịch do các hệ thống dịch tự động đưa ra. Kết quả đánh giá này hồn tồn dựa trên bản dịch gốc của máy tính thơng qua sự chỉnh sửa của con người, nên khơng cần các bản dịch tham khảo mà vẫn cho ra kết quả đánh giá chính xác và phù hợp nhất. (2.1) (2.2) 64 Ngồi ra cĩ thể so sánh chất lượng của các hệ thống dịch tự động (chẳng hạn giữa Google và Microsoft) một cách chính xác và khách quan mà khơng phụ thuộc vào bản dịch chuẩn của dữ liệu mẫu. Hình 2.5. Chương trình tính chỉ số Tpe và Ope thơng qua quá trình hiệu đính Đối chiếu với chỉ số WER (trình bày tại mục 1.2.3) hoặc chỉ số ED (khoảng cách Edit Distance), chúng ta thấy rằng đây là hai chỉ số để đo khoảng cách giữa hai chuỗi bằng cách tính tốn số bước ngắn nhất để biến đổi một chuỗi X thành chuỗi Y thơng qua các thao tác thêm, sửa, xĩa. Trong trường hợp lý tưởng, người dùng sẽ thực hiện số bước ngắn nhất để hiệu chỉnh bản dịch, khi đĩ giá trị WER hồn tồn trùng khớp với giá trị Ope. Ở đây mỗi thao tác thay thế (S) sẽ bằng một lần xĩa (D) và một lần thêm mới (I). ܹܧܴ = ܵ + ܫ + ܦ ܰ = (ܫ + ܦ) + ܫ + ܦ ܰ = ܱ Trên thực tế, số bước người dùng chỉnh sửa cĩ thể sẽ nhiều hơn so với giá trị (S + I + D). Qua thực nghiệm với một số bộ dữ liệu và quá trình hiệu đính thực tế, cĩ thể thấy rằng giá trị Ope và Tpe thay đổi tỷ lệ thuận với giá trị WER và ED. 65 2.2.3.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá chất lượng Hiện nay, khơng phải hệ thống nào cũng hỗ trợ thao tác hiệu đính để giúp người dùng chỉnh sửa kết quả bản dịch máy thành bản dịch chính xác và cĩ thể sử dụng được. Ở các hệ thống này, người dùng chỉ cĩ thể xem kết quả bản dịch, sau đĩ cĩ thể sao chép sang các trình soạn thảo văn bản khác để tiếp tục chỉnh sửa hồn thiện bản dịch này. Như vậy các hoạt động hiệu đính chỉ phục vụ cho mục đích của người sử dụng, chứ chưa được ứng dụng để cải thiện và đánh giá hệ thống dịch. Các hoạt động hiệu đính và đánh giá chất lượng được thực hiện tách rời nhau và khơng kế thừa kết quả của nhau. Vì vậy, nghiên cứu đề xuất kết hợp các hoạt động hiệu đính bản dịch máy với đánh giá chất lượng, giúp giảm chi phí và nâng cao độ chính xác. Để làm được điều này, cần xây dựng hệ thống đánh giá chất lượng dịch tiếng Anh – tiếng Việt của các hệ thống dịch tự động trực tuyến (như Google, Microsoft) thơng qua các thao tác hậu xử lý với các đặc điểm sau: Hình 2.6. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch Hệ thống dịch tự động (thủ cơng, hàm API) Kho ngữ liệu đơn ngữ tiếng Anh Kết quả dịch (Tài liệu tiếng Việt) Hiệu đính bản dịch Tính chỉ số Tpe và Ope Bổ sung dữ liệu song ngữ Đánh giá chất lượng Đánh giá BLEU, NIST... Cải thiện chất lượng mơ hình dịch 66 - Kho ngữ liệu nguồn: là kho ngữ liệu đơn ngữ (tiếng Anh), chưa được dịch sang tiếng Việt. - Kết quả dịch: Từ câu nguồn tiếng Anh (cần dịch), sử dụng các hệ thống dịch tự động trực tuyến để lấy kết quả bản dịch (thực hiện thủ cơng, sử dụng các hàm API hoặc các kỹ thuật khác) là câu đích ở tiếng Việt. Đây là kết quả “dịch thơ”, chưa chính xác và cần quá trình hiệu đính của con người. - Hiệu đính bản dịch: Cho phép người dùng kiểm tra và chỉnh sửa bản dịch tiếng Việt này để cĩ được bản dịch chính xác mà khơng cần dựa trên các bản dịch cĩ sẵn. - Đánh giá chất lượng: theo dõi và đo các chỉ số về thời gian (Tpe) và thao tác (Ope) để đánh giá chất lượng của các bản dịch. - Xây dựng kho ngữ liệu: sau quá trình hiệu đính, hệ thống thu được các cặp câu nguồn tiếng Anh và bản dịch tiếng Việt đã được chỉnh sửa. Các cặp câu song ngữ này được sử dụng để tạo kho ngữ liệu tương ứng. - Đánh giá chất lượng bằng các phương pháp khác: khi đã cĩ kho ngữ liệu song ngữ, chúng ta cĩ thể tiếp tục hoạt động đánh giá bằng các số đo khác như đã trình bày ở trên, từ đĩ cĩ thể đối chiếu, so sánh giữa các thang đo. - Cải thiện chất lượng hệ thống dịch: bản dịch sau khi được con người sửa chữa sẽ được sử dụng để cải thiện chất lượng của hệ thống dịch. Ở các lần dịch tiếp theo, kết quả của hệ thống dịch chắc chắn sẽ tốt hơn. 2.2.3.4. Thực nghiệm Để triển khai thực nghiệm quá trình hiệu đính bản dịch máy kết hợp đánh giá chất lượng bản dịch và xây dựng kho ngữ liệu, NCS triển khai các bước sau: - Bước 1: Lấy 500 câu song ngữ tiếng Anh – tiếng Việt từ các đoạn hội thoại đã được dịch trong tài liệu học tiếng Anh ở chủ đề thơng dụng là “Cuộc sống hàng ngày”. Dữ liệu này được chia thành 5 bộ để thực nghiệm. Câu tiếng Anh (E) là câu nguồn cần dịch, câu tiếng Việt được xem là bản dịch tham chiếu (V). 67 - Bước 2: Xây dựng chương trình sử dụng các dịch vụ được cung cấp của hệ thống dịch Google, Microsoft để tự động gửi các câu nguồn tiếng Anh (E) và lấy về các bản dịch tiếng Việt (V1) từ các hệ thống dịch đĩ. Dùng bản dịch của kho ngữ liệu (V) để làm câu tham chiếu, đo các chỉ số đánh giá (D1) theo thuật tốn Edit Distance (ED), Word Error Rate (WER), BLEU, NIST để so sánh sự tương đồng giữa hai câu V và V1. Chỉ số Edit Distance cho biết số lượng từ và ký tự khác nhau giữa 2 câu, Word Error Rate đo tỷ lệ lỗi giữa câu dịch và câu tham chiếu, cịn chỉ số BLEU và NIST tính tốn mức độ khác nhau dựa trên n-grams. Kết quả thu được ở Bảng 2.5. - Bước 4: Xây dựng hệ thống cho phép người dùng hiệu chỉnh các bản dịch. Quá trình này được tự động đo thời gian và đếm số lượng thao tác mà người dùng thực hiện để hiệu chỉnh. Từ đĩ tính tốn chỉ số Tpe và Ope để đánh giá chất lượng bản dịch. Bản dịch hiệu chỉnh (V2) được đưa vào kho ngữ liệu để làm câu tham chiếu. Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu BLEU NIST ED WER Test 1 24,2 1,563 6,739 0,886 Test 2 54,2 2,876 5,684 0,561 Test 3 29,2 1,972 7,000 0,814 Test 4 27,3 2,450 9,286 0,757 Test 5 38,0 2,546 8,067 0,634 - Tiếp tục sử dụng hệ thống để tính tốn lại các chỉ số Edit Distance, Word Error Rate, BLEU, NIST (D2) giữa hai câu V1 và V2. So sánh D1 và D2. Kết quả được thể hiện ở Bảng 2.6. Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch Tpe Ope BLEU NIST ED WER Test 1 0,649 1,385 55,3 2,304 3,913 0,403 Test 2 0,211 0,717 78,9 3,281 1,632 0,142 68 Tpe Ope BLEU NIST ED WER Test 3 0,199 0,945 84,9 3,006 1,071 0,102 Test 4 0,506 1,250 63,1 3,170 3,500 0,301 Test 5 0,550 1,265 67,7 3,130 4,133 0,257 Từ kết quả này, chúng ta cĩ thể thấy được sự tương đồng giữa chỉ số Tpe, Ope với các chỉ số Edit Distance và Word Error Rate thơng qua đồ thị ở Hình 2.7. Khi chỉ số Tpe, Ope tăng thì tương tứng chỉ số ED và WER cũng tăng và ngược lại. Hình 2.7. Sự tương đồng giữa Tpe, Ope và ED, WER Khi so sánh kết quả bản dịch với câu tham chiếu thu được từ quá trình hiệu chỉnh, các chỉ số BLEU và NIST đã tốt hơn (Hình 2.8) và việc đánh giá khơng phụ thuộc vào các bản dịch cĩ sẵn, thể hiện được tính khách quan khi đánh giá kết quả của hệ thống dịch. G iá tr ị đ o cá c ch ỉ s ố Bộ dữ liệu 69 Hình 2.8. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh 2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan Các chiến dịch đánh giá chất lượng dịch tự động như CSTAR, NESPOLE, IWSLT [14] đã được tổ chức rất quy mơ với nhiều phương pháp đánh giá chủ quan và khách quan khác nhau đã cho thấy rằng chất lượng dịch tự động đối với các cặp ngơn ngữ phổ biến cũng chỉ chấp nhận được với một số lĩnh vực nhất định và cĩ chất lượng rất kém nếu như kho ngữ khơng đảm bảo cả về chất lượng và khối lượng. Mặc dù hiện nay tồn tại nhiều kho dữ liệu dùng trong lĩnh vực tự động, song các kho ngữ liệu này đều cĩ những nhược điểm đáng kể. Nhiều nguồn tài nguyên dữ liệu được tạo ra như các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE; các bộ từ điển như German dictionary Deutsches Wưrterbuch, Oxford English Dictionar, Gregg Cox cĩ số lượng ngơn ngữ và khối lượng dữ liệu tương đối lớn. Tuy vậy, so với số lượng ngơn ngữ tự nhiên trên thế giới hiện nay (khoảng 6.500 ngơn ngữ nĩi) và khối lượng dữ liệu đủ để bao phủ hầu hết các lĩnh vực dịch thì các kho ngữ liệu trên so ra cịn quá khiêm tốn để cĩ thể cho phép xây dựng được một hệ thống dịch tự động chất lượng cao. Mặt khác, các kho ngữ liệu hiện nay cĩ chất lượng cịn khá thấp, dữ liệu đa số ở dạng thơ và nhập nhằng, bởi lẽ đa số các kho ngữ liệu tồn tại dưới dạng văn bản hoặc chỉ cĩ một số ít thơng tin mơ tả đi kèm [40]. Một vấn đề khác là các kho ngữ liệu tồn tại một cách rời rạc, cĩ cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khĩ Bộ dữ liệu G iá tr ị đ o cá c ch ỉ s ố 70 khăn. Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng khơng thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt. Như phân tích ở Chương I, để cĩ thể xây dựng được một hệ thống dịch tự động chất lượng và hồn chỉnh, ngồi việc nghiên cứu cải tiến phương pháp dịch tự động, vấn đề quan trọng cần giải quyết đĩ là nghiên cứu giải pháp xây dựng được kho ngữ liệu lớn khơng chỉ về khối lượng dữ liệu, số cặp ngơn ngữ mà cịn tốt về chất lượng. Nội dung nghiên cứu của chương này tập trung đánh giá thực trạng chất lượng các kho ngữ liệu hiện cĩ, hiểu các giải pháp xây dựng kho ngữ liệu và đề xuất các giải pháp mở rộng kho ngữ liệu cả về khía cạnh khối lượng và khía cạnh chất lượng, nhằm hướng đến giải pháp cải tiến chất lượng dịch của các hệ thống dịch tự động nĩi chung và nhất là các hệ thống dịch tự động tiếng Việt hiện nay: - Tổng hợp các nghiên cứu liên quan đến kho ngữ liệu, cấu trúc các kho ngữ liệu và kết quả xây dựng và cải tiến chất lượng các kho ngữ liệu song ngữ tiếng Việt. - Đề xuất một số giải pháp cải tiến kho ngữ liệu ở khía cạnh mở rộng khối lượng và cải tiến chất lượng của kho ngữ liệu. - Thực nghiệm giải pháp cải tiến chất lượng thơng qua xác định danh từ riêng, xác định ranh giới từ ghép, xây dựng ứng dụng thu thập kho ngữ liệu lớn phục vụ quá trình huấn luyện hệ thống dịch tự động. Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu 2.3.2.1. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía cạnh khối lượng Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng khối lượng, phần lớn các nghiên cứu tập trung đến các phương pháp và cơng trình liên quan đến hai vấn đề sau: - Mở rộng kho ngữ liệu theo hướng ngơn ngữ: Các cơng trình [40][48] đã đưa ra giải pháp mở rộng kho ngữ liệu theo hướng ngơn ngữ bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện cĩ của kho ngữ liệu sang các ngơn ngữ mới, sau đĩ đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu cĩ chất lượng trong ngơn ngữ mới tương đồng với dữ liệu gốc. 71 - Mở rộng kho ngữ liệu theo hướng xây dựng và bổ sung dữ liệu: Liên quan đến vấn đề xây dựng và bổ sung dữ liệu mới vào kho ngữ liệu, cĩ thể kể đến các phương pháp xây dựng dữ liệu mới [48][49][50]. Các cơng trình này đề xuất việc xây dựng nội dung mới cĩ chất lượng cho kho dữ liệu dịch tự động bằng cách trích lọc dữ liệu từ các kho dữ liệu hỗn tạp trong thực tế. Đề xuất tại [51], cơng trình này đưa ra đề xuất xây dựng nội dung mới cho kho ngữ liệu bằng cách thu thập, trích lọc các câu song song từ các website đa ngữ. 2.3.2.2. Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía cạnh chất lượng Liên quan đến khía cạnh mở rộng kho ngữ liệu theo hướng chất lượng, đã cĩ các giải pháp và cơng cụ để cải tiến chất lượng dữ liệu bằng cách sinh mới và chỉnh sửa dữ liệu dịch. Trong đĩ, nổi bật nhất là hệ thống SECTra_w [48], hệ thống này cho phép người dùng nạp kho ngữ liệu vào và hiển thị kho ngữ liệu một cách trực quan, dạng song song rất thuận tiện cho việc kiểm tra và cải tiến chất lượng văn bản. Hệ thống này cũng là một mơi trường cộng tác cho phép nhiều người tham gia cải tiến và chỉnh sửa kho ngữ liệu. Các các cơng cụ khác cũng đã được xây dựng như Mtpost-editor, phát triển bởi NIST, hoặc cơng cụ SYSTRAN Review Manager được dùng ở cơng ty Systran. Ngồi ra, chúng ta cũng tìm thấy một số hệ thống được triển khai dưới mơ hình mạng như Google Translator Toolkit, BEYtrans, Yakushite.net, Translationwiki.net, Traduwiki, Caitra [52]. Bên cạnh đĩ, cĩ các cơng trình nghiên cứu các giải pháp và xây dựng các kho ngữ liệu gán nhãn nhằm biểu diễn thêm ngữ nghĩa cho kho ngữ liệu như [39], nghiên cứu xây dựng, chuẩn hĩa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt, xây dựng các mơ hình chú giải cho kho ngữ liệu tiếng Việt [13]. Giải pháp nâng cao chất lượng kho ngữ liệu Vấn đề nâng cao chất lượng của kho ngữ liệu đĩng vai trị quan trọng nhằm hồn thiện các giải pháp trong vấn đề xử lý ngơn ngữ tự nhiên như dịch máy, phân loại văn bản Trong nghiên cứu này, giải pháp mở rộng kho ngữ liệu được tập trung chủ yếu vào hai hướng nghiên cứu chính gồm mở rộng kho ngữ liệu theo hướng khối lượng và theo hướng chất lượng. 72 Như đã đề cập ở phần trên, nếu cĩ được kho ngữ liệu đa ngữ đủ lớn về khối lượng, tốt về chất lượng thì chắc chắn chúng ta sẽ cải tiến được chất lượng dịch của các hệ thống dịch tự động hiện nay. Do đĩ, vấn đề nghiên cứu và đề xuất các giải pháp mở rộng kho ngữ liệu là hết sức cần thiết để cải tiến chất lượng dịch tự động. Giải pháp nâng cao kho ngữ liệu được đề xuất trong nghiên cứu này bao gồm: - Mở rộng hay làm tăng thêm khối lượng kho ngữ liệu; - Cải tiến chất lượng dữ liệu của các kho ngữ liệu. 2.3.3.1. Mở rộng khối lượng kho ngữ liệu Để cĩ thể mở rộng khối lượng kho ngữ liệu thơng qua các giải pháp khác nhau, nghiên cứu sinh đã tiến hành nghiên cứu và phân tích các kho ngữ liệu phổ biến đại diện cho các loại kho ngữ liệu phổ biến hiện nay gồm: JRC-ACQUIS, EUROPARL, ERIM và EOLSS/UNL. Từ việc phân tích bốn kho ngữ liệu trên, chúng ta cĩ được bảng tĩm tắt đặc trưng của các kho ngữ liệu trên sau đây. Bảng 2.7. Bảng tĩm tắt đặc trưng các kho ngữ liệu phổ biến Kho ngữ liệu Tổ chức vật lý Định dạng dữ liệu Mức liên kết JRC-ACQUIS Gồm nhiều thư mục, mỗi thư mục chứa các tệp liên kết với nhau XML theo chuẩn TEI Tệp hoặc đoạn hoặc câu hoặc từ EUROPARL TXT ERIM TXT, XML và WAV EOLSS/UNL HTML và UNL Ở dạng trực quan, mối quan hệ giữa các dạng dữ liệu của các kho ngữ liệu cĩ thể tĩm tắt theo hình vẽ như sau: Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu 73 Từ việc phân tích các kho ngữ liệu trên, cĩ thể xác định được cấu trúc và định dạng chuẩn cho các kho ngữ liệu như sau: cấu trúc vật lý chuẩn của một kho ngữ liệu phải bao gồm nhiều thư mục và mỗi thư mục chứa đựng các tệp ở một định dạng nào đĩ. Trong đĩ, mỗi kho ngữ liệu phải chứa đựng các tệp mơ tả ở mức độ khác nhau: mơ tả ở mức kho ngữ liệu, mơ tả ở mức tài liệu và mơ tả ở mức các phân đoạn bên trong. Cụ thể, cấu trúc của một kho ngữ liệu được đề xuất gồm hai phần: Phần tiêu đề (header) chứa thơng tin về ngữ liệu, ngơn ngữ, ngày tạo, Phần thân (body) chứa thơng tin của các loại tài liệu: , ,Mỗi tài liệu chứa mơ tả cấu trúc phân cấp của nĩ: chương, trang, mục, và mơ tả phân đoạn: (, , , Trong đĩ, mơ tả đoạn chứa các thơng tin: nguồn, bản dịch trước, bối cảnh, bài chỉnh sửa, âm thanh, điểm số, đồ thị UNL, Đối với định dạng chuẩn của kho ngữ liệu, nghiên cứu sử dụng định dạng XML và đề xuất như sau: <! ELEMENT header (name, date, domain, authors, project, Nlang, lang, * othermeta *)> 74 Hình 2.10. Định dạng chuẩn biểu diễn kho ngữ liệu Đối với việc mở rộng khối lượng kho ngữ liệu, luận án đề xuất hai giải pháp cụ thể gồm: - Giải pháp hợp nhất các kho ngữ liệu hiện cĩ để tạo ra một kho ngữ liệu lớn hơn. - Giải pháp xây dựng hệ thống cho phép mở rộng ngơn ngữ cũng như thêm dữ liệu vào kho ngữ liệu. a) Hợp nhất các kho ngữ liệu Trong các cơng trình nghiên cứu [48][14][53] đã chỉ rõ rằng, hiện nay tồn tại rất nhiều kho ngữ liệu cĩ kích thước, số lượng ngơn ngữ, định dạng và cấu trúc khác nhau. Hợp nhất các kho ngữ liệu chính là tìm cách trộn, liên kết các kho ngữ liệu này lại với nhau để tạo nên một kho ngữ liệu lớn hơn cĩ cùng cấu trúc, định dạng và với nhiều cặp ngơn ngữ hơn. Ví dụ, cĩ 2 kho ngữ liệu song song: kho thứ nhất (R1) gồm 2 cặp ngơn ngữ Anh-Pháp và Anh-Việt gồm 5.000 cặp câu; kho thứ hai (R2) gồm 2 cặp ngơn ngữ Anh-Việt và Việt-Khmer gồm 5.000 cặp câu. Sau khi hợp nhất 2 kho ngữ liệu trên, chúng ta sẽ cĩ được một kho ngữ liệu lớn hơn cĩ số lượng từ 5.000 đến 10.000 cặp câu với 3 cặp ngơn ngữ Anh-Pháp, Anh-Việt, Anh-Khmer và cĩ thể xây dựng thêm các kho ngữ liệu mới Pháp-Việt, Việt-Khmer. Một cách tổng quát, nếu xem mỗi kho ngữ liệu là một tập hợp (Ri), gồm các cặp câu và các cặp ngơn ngữ thì kho ngữ liệu hợp nhất (Ru) sẽ là kết quả của phép hợp của các kho ngữ liệu thành viên và được biểu diễn bởi cơng thức sau: (3.1) 75 Ru = R1 ∪ R2 ∪ R3 ∪..∪ Rn = ⋃ ܴୀଵ Thuật tốn đề xuất để hợp nhất hai kho ngữ liệu R1 và R2, chứa các bộ dữ liệu thuộc ngơn ngữ L1 và L2, với độ phức tạp thuật tốn O(n2) được mơ phỏng như sau: Giải pháp hợp nhất các kho ngữ liệu sẽ bao gồm một số vấn đề cụ thể cần giải quyết như sau: o Hợp nhất dữ liệu Hợp nhất dữ liệu tức là liên kết dữ liệu (alignment) hay là xác định tính tương đồng giữa các đơn vị dữ liệu cùng hoặc khác ngơn ngữ của các kho ngữ liệu. Liên kết các đơn vị dữ liệu cùng một ngơn ngữ giữa các kho ngữ liệu thực chất là quá trình so sánh văn bản để tìm ra được các cặp đơn vị dữ liệu giữa các kho ngữ liệu tương đồng với nhau. Nếu xét ở mức so sánh chuỗi ký tự, việc liên kết dữ liệu dễ dàng được thực hiện thơng qua việc áp dụng một số thuật tốn phổ biến hiện nay như Edit distance, BLEU, NIST, WER, Nếu xét ở mức độ so sánh ngữ nghĩa, việc liên kết dữ liệu sẽ rất phức tạp. Tuy nhiên, với mục đích hợp nhất dữ liệu các kho ngữ liệu, chúng ta chỉ dừng lại ở mức so sánh chuỗi ký tự. Một cách tổng quát, liên kết dữ liệu cùng ngơn ngữ giữa hai
File đính kèm:
- luan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf
- 0. Phụ lục Bìa luận án.pdf
- 2. Tóm tắt tiếng Việt.pdf
- 3. Tóm tắt tiếng Anh.pdf
- 4. Thông tin đóng góp mới tiếng Việt.pdf
- 5. Thông tin đóng góp mới tiếng Anh.pdf
- 6. Trích yếu luận án tiếng Việt.pdf
- 7. Trích yếu luận án tiếng Anh.pdf