Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
nghiên cứu trước đây, các kỹ thuật mới cĩ thể đề xuất, đặc biệt là các kỹ thuật học sâu để xây dựng mơ hình dự đốn xếp hạng và gợi ý tài nguyên học tập phù hợp với dữ liệu cụ thể của một trường đại học, trong đĩ cĩ trường đại học đa ngành, cũng như các nguồn tài nguyên học tập khác. 2.6.4. Thảo luận và đề xuất các nghiên cứu của luận án Từ các vấn đề nghiên cứu được hệ thống như trên, chúng ta nhận thấy thực tế đã cĩ những nghiên cứu liên quan về phân loại văn bản, tìm kiếm tài liệu cĩ quan tâm vấn đề ngữ nghĩa cũng như nghiên cứu về dự đốn xếp hạng và gợi ý tài nguyên học tập. Với mong muốn sử dụng và cải tiến các nghiên cứu trước đĩ để áp dụng vào lĩnh vực giáo dục, luận án này đề xuất các giải pháp, kỹ thuật nhằm giải quyết bài tốn về tìm kiếm và gợi ý tài nguyên học tập phù hợp với nhu cầu và năng lực người học. Cụ thể, luận án nghiên cứu các vấn đề chính sau đây: 1. Nghiên cứu về phân loại tài nguyên học tập: Để giới hạn khơng gian tìm kiếm, giúp cho quá trình tìm kiếm nhanh và chính xác hơn thì phân loại tài nguyên học tập và phân loại câu truy vấn là nhiệm vụ rất quan trọng. Tùy vào dữ liệu thực tế cĩ thể quyết định sử dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Luận án này đề xuất mơ hình phân loại tài nguyên học tập sử dụng các kỹ thuật khác nhau, đặc biệt là kỹ thuật học sâu. Luận án sử dụng nhiều tập dữ liệu với nhiều ngơn ngữ khác nhau, cĩ số lớp khác nhau, số mẫu cĩ thể khác biệt lớn để đánh giá khách quan hiệu quả của kỹ thuật phân loại được đề xuất. 2. Nghiên cứu về tìm kiếm tài nguyên học tập: Thực tế đã cĩ nhiều cách tiếp cận về tìm kiếm tài nguyên học tập (hay tìm kiếm tài liệu nĩi chung). Trong đĩ, tìm kiếm cĩ quan tâm đến vấn đề ngữ nghĩa được quan tâm nhiều do đáp ứng tốt hơn nhu cầu của người dùng. Các nghiên cứu về tìm kiếm ngữ nghĩa đã được đề xuất bởi nhiều nhà nghiên cứu như đề cập ở trên, tuy nhiên trong lĩnh vực giáo dục, đặc biệt trong tìm kiếm tài nguyên học tập phục vụ dạy và học vẫn cịn ít nghiên cứu. Vì vậy, luận án này đề xuất các mơ hình tìm kiếm tài nguyên học tập dựa trên tính tốn sự tương đồng về nội dung văn bản bằng cách kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương đồng về thứ tự từ trong văn bản, và tìm kiếm dựa trên mạng ngữ nghĩa ontology dùng biểu diễn thơng tin. Một vấn đề được chú trọng trong luận án này là truy vấn (query) và 53 tài nguyên học tập được xử lý và phân loại trước khi thực hiện tìm kiếm giúp cho quá trình tìm kiếm nhanh và hiệu quả hơn. Truy vấn ở đây cĩ thể là một cụm từ hoặc một tài liệu (tài nguyên học tập). 3. Nghiên cứu về dự đốn xếp hạng kết quả học tập: Hiện nay, cĩ nhiều hệ thống dự đốn xếp hạng với các cách tiếp cận khác nhau. Tuy nhiên, trong lĩnh vực giáo dục, đặc biệt là sử dụng nguồn dữ liệu thực tế về kết quả học tập của sinh viên, vấn đề này chưa được quan tâm nhiều. Kế thừa các nghiên cứu trước đĩ, luận án đề xuất xây dựng các mơ hình dự đốn xếp hạng sử dụng các kỹ thuật tiến tiến, đặc biệt là kỹ thuật học sâu như mạng nơ-ron tích chập CNN, mạng nơ-ron truyền thẳng đa tầng MLP và bộ nhớ ngắn dài hạn LSTM, với các cách tiếp cận khác nhau gồm xây dựng mơ hình dự đốn cho tồn bộ sinh viên, mơ hình dự đốn theo nhĩm năng lực học tập và mơ hình dự đốn theo từng sinh viên. 4. Nghiên cứu về gợi ý tài nguyên học tập: Trên thực tế, bài tốn dự đốn xếp hạng (rating prediction) và gợi ý (recommendation) khơng tách rời nhau. Từ kết quả dự đốn cĩ thể chọn ra các kết quả được xếp hạng cao để gợi ý. Đối với tài nguyên học tập, kết quả của hoạt động dự đốn làm tiền đề cĩ thể sử dụng cho gợi ý được hiệu quả và chính xác hơn. Luận án này đề xuất mơ hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu DMF (Deep Matrix Factorization) được mở rộng từ phân rã ma trận chuẩn MF và so sánh với các kỹ thuật khác của hệ thống gợi ý (gọi là baselines). Trên đây, các nghiên cứu liên quan cũng như cơ sở lý thuyết và các kỹ thuật về phân loại tài nguyên học tập, kỹ thuật tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản và dựa trên mạng ngữ nghĩa, hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý được trình bày. Trong các phần tiếp theo của luận án, các mơ hình phân loại tài nguyên học tập, mơ hình tìm kiếm tài nguyên học tập, mơ hình dự đốn kết quả học tập và mơ hình gợi ý tài nguyên học tập lần lượt được trình bày. Cuối cùng là một số kết luận và hướng nghiên cứu tiếp theo của luận án. 54 CHƯƠNG 3. MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP Chương này trình bày mơ hình phân loại tài nguyên học tập nhằm giới hạn được khơng gian tìm kiếm giúp cho quá trình tìm kiếm tài nguyên học tập đạt hiệu quả hơn. Đầu tiên, dữ liệu được tiền xử lý, sau đĩ rút trích đặc trưng, véc-tơ hĩa và thực hiện phân loại. Việc phân loại tài nguyên học tập được đề xuất dựa trên các kỹ thuật học máy và học sâu. Những kết quả chính của chương này là đề xuất cách tiếp cận kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa tầng MLP (Multilayer Perceptron) để phân loại tài nguyên học tập. Thực nghiệm cho thấy phương pháp này cho kết quả khả thi hơn so với việc sử dụng các kỹ thuật học máy khác như cây quyết định (Decision Tree), máy véc-tơ hỗ trợ SVM (Support Vector Machine)... Trong quá trình thực nghiệm, nhiều tập dữ liệu thuộc nhiều ngơn ngữ khác nhau, cĩ số lớp, số mẫu khác nhau đã được thu thập và sử dụng để việc đánh giá phân loại tài nguyên học tập được khách quan. Do dữ liệu dùng phân loại ở dạng mất cân bằng (số lớp, số mẫu) nên độ đo AUC được sử dụng như là phép đo đánh giá độ chính xác của phân loại tài nguyên học tập. Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT1 (Dien, T. T. et al., 2019), CT2 (Dien, Tran Thanh and Thanh-Hai, Nguyen et al., 2020). 3.1. Giới thiệu Với sự phát triển bùng nổ của thơng tin và sự phát triển đồng thời của khả năng tính tốn tự động, phân loại dữ liệu, đặc biệt là dữ liệu văn bản cĩ ý nghĩa quan trọng. Phân lớp văn bản (text classification) là một kỹ thuật học cĩ giám sát, được triển khai nhiều trong thực tế. Trong lĩnh vực học máy (machine learning) và xử lý ngơn ngữ tự nhiên (Natural Language Processing-NLP), phân lớp văn bản là một bài tốn nhằm phân một văn bản mới vào nhĩm các văn bản cho trước dựa trên sự tương đồng của văn bản đĩ so với nhĩm văn bản (Sebastiani, 2002); là việc gán nhãn lên một văn bản mới dựa trên mức độ tương đồng của văn bản đĩ so với các văn bản đã được gán nhãn (Yang and Liu, 1999). Với số lượng văn bản rất lớn trên mỗi chủ đề, thao tác phân loại lần lượt trong từng văn bản sẽ mất rất nhiều thời gian, cơng sức, chưa kể khả năng xảy ra trường hợp phân loại khơng chính xác do tính chủ quan của người phân loại. Chẳng hạn trong hệ thống nộp bài tự phân loại lĩnh vực như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM (Association for Computing Machinery) với hơn 2.000 chủ đề, tác giả mất rất nhiều thời gian để xác định chủ đề của bài viết cần nộp vào. Vì vậy, phân loại văn bản tự động giúp cho quá trình lưu trữ, tìm kiếm thơng tin nhanh chĩng hơn, đặc biệt trong thời kỳ thơng tin bùng nổ thì dữ liệu ngày càng đa dạng và rộng lớn hơn. 55 Phân loại văn bản được ứng dụng nhiều trong thực tiễn như lọc thư rác, quản lý tri thức, hỗ trợ các cơng cụ tìm kiếm trên Internet, phân loại chủ đề tập tài liệu (Thaoroijam, 2014; Li et al., 2017)... Vấn đề phân loại văn bản được nhiều nhà khoa học quan tâm với các hướng tiếp cận khác nhau. Một cách tiếp cận được nhiều nhà nghiên cứu sử dụng là phương pháp học máy, với nhiều giải thuật được sử dụng như k láng giềng gần nhất, Nạve Bayes, máy véc-tơ hỗ trợ, cây quyết định, mạng nơ-ron nhân tạo (Cortes and Vapnik, 1995; McCallum and Nigam, 1998; Aggarwal and Zhai, 2012; Bijaksana et al., 2013; Haddoud et al., 2016). Phân loại văn bản khơng phải là bài tốn mới. Tuy nhiên, trong chương này vấn đề phân loại tài nguyên học tập sử dụng kỹ thuật học sâu, cĩ sự so sánh với các kỹ thuật học máy khác được tập trung giải quyết, từ đĩ cho thấy hiệu quả của kỹ thuật học sâu được đề xuất. Nội dung tiếp theo của chương được trình bày như sau: mơ hình phân loại văn bản cùng với kỹ thuật tiền xử lý, mơ tả các tập dữ liệu dùng làm thực nghiệm, sau đĩ các kết quả thực nghiệm, cuối cùng là tổng kết và nhận xét về kết quả nghiên cứu. 3.2. Mơ hình phân loại tài nguyên học tập 3.2.1. Phân loại tài nguyên học tập Phân loại tài nguyên học tập hay phân lớp văn bản nĩi chung (text classification) là quá trình rút trích các đặc trưng (feature extraction) từ tập dữ liệu và dự đốn xem nĩ thuộc loại tài liệu nào dựa trên các đặc trưng đĩ (Kowsari et al., 2019). Phân loại văn bản là cơng việc cơ bản và cần thiết trong xử lý ngơn ngữ tự nhiên. Thời gian qua, nhiều phương pháp tiếp cận đạt được những kết quả quan trọng trong phân loại văn bản. Sự thành cơng đĩ dựa trên khả năng hiểu được các mơ hình phức tạp và các mối quan hệ phi tuyến tính trong dữ liệu. Hơn một thập kỷ qua, nghiên cứu trong lĩnh vực này đã gia tăng do thành cơng chưa từng cĩ của kỹ thuật học máy, gần đây là học sâu (Li et al., 2020). Phân loại tài nguyên được nhiều trường đại học, viện nghiên cứu quan tâm, ứng dụng giải quyết các bài tốn cụ thể. Chẳng hạn tài nguyên học tập là bài báo khoa học gửi đăng các tạp chí, các hội thảo. Các hệ thống nhận bài của các tạp chí cĩ quy mơ lớn thường cĩ rất nhiều chủ đề, như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM cĩ hơn 2.000 chủ đề, do vậy cần phân loại tự động để xác định một bài viết thuộc chủ đề nào. Trong nghiên cứu này, mơ hình loại tài nguyên học tập bằng các kỹ thuật học máy và học sâu được đề xuất. Các tập dữ liệu thực nghiệm là các nguồn tài nguyên học tập được thu thập từ nhiều nguồn khác nhau. Ngồi ra, các kỹ thuật xử lý ngơn ngữ tự nhiên cũng được sử dụng để tiền xử lý dữ liệu trước khi kiểm chứng mơ hình. 56 Hệ thống tổng quát của mơ hình phân loại tài nguyên học tập được trình bày trong Hình 3.1. Cụ thể tài nguyên học tập ở đây là các bài báo (article) của các tập dữ liệu khác nhau. Trong mơ hình này, khi một bài báo mới (định dạng .doc, .html,) gửi đến hệ thống sẽ được phân loại thành một chủ đề dựa trên dữ liệu trước đĩ được huấn luyện bởi các mơ hình học máy, học sâu. Hình 3.1: Kiến trúc đề xuất để tiền xử lý và phân loại tài nguyên học tập 3.2.2. Tiền xử lý dữ liệu Quá trình tiền xử lý dữ liệu được mơ tả như Giải thuật 3.1. Quá trình tiền xử lý gồm nhiều cơng việc khác nhau. Giải thuật 3.1: PreProccessing Data: InputDocument d 1 Convertion(d) // convert the input document (.doc/.pdf) to text 2 WordSegmention(d) // separate document to words 3 WordNormalization(d) // changed to lower cases, removing blanks 4 RemovingStopWords(d) // remove noise words 5 Vectorization(d) // convert documents to respectively vectors 6 Return sets of Vectorized-Documents D Convertion(d): Chuyển đổi dữ liệu từ các định dạng khác nhau sang định dạng văn bản thuần túy (.txt) để dễ dàng sử dụng trong hầu hết các giải thuật. Nhiều cơng cụ cĩ thể được dùng để chuyển đổi định dạng dữ liệu, trong nghiên cứu này, cơng cụ Apache POI được sử dụng vì nĩ phù hợp với các tập dữ liệu lớn. WordSegmention(d): Đối với tiếng Việt, dấu cách (space) khơng cĩ nhiệm vụ tách từ mà chỉ phân cách giữa các âm tiết. Chính vì vậy, giai đoạn tách từ cũng khá quan trọng trong xử lý ngơn ngữ tự nhiên. Nghiên cứu này đã sử dụng cơng cụ tách từ VnTokenizer dựa trên cách tiếp cận tổng hợp các phương pháp Maximum Matching, WFST và regular expression parsing, với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt. Đây là cơng cụ tách từ tiếng Việt tự động, tách các văn bản tiếng Việt thành các đơn vị từ vựng (từ ngữ, tên, số, ngày tháng và các biểu thức chính quy khác) với độ chính xác hơn 95% (Nguyễn Thị Minh Huyền et al., 2010). 57 WordNormalization(d): Dữ liệu cần được chuẩn hĩa từ để chuyển tất cả ký tự của văn bản thành chữ thường, xĩa các khoảng trống, trước khi thực hiện xĩa các từ khơng cần thiết gây nhiễu. RemovingStopWords(d): Từ dừng (stop words) là những từ khơng bổ sung nhiều ý nghĩa cho một câu, khơng chứa thơng tin đáng giá để sử dụng và cĩ thể được bỏ qua mà khơng làm mất đi ý nghĩa của câu. Stop words thường xuất hiện nhiều trong tất cả các văn bản trong tập dữ liệu (Saif et al., 2014). Trong phân loại văn bản, sự xuất hiện của stop words khơng những khơng giúp gì trong việc đánh giá phân loại mà cịn gây nhiễu và giảm độ chính xác của quá trình phân loại (như các từ: thì, là, mà, và, hoặc, bởi). Vectorization(d): Cĩ một số mơ hình biểu diễn văn bản như mơ hình khơng gian véc-tơ (vector space model) dựa trên phương pháp đánh trọng số của từ theo tần số, mơ hình túi từ (bag of words model), mơ hình hĩa văn bản thành đồ thị (graph-based model). Nghiên cứu đề cập phương pháp biểu diễn văn bản theo mơ hình khơng gian véc-tơ do mơ hình này biểu diễn tương đối đơn giản và hiệu quả (Perone, 2013). Theo mơ hình này, mỗi văn bản được biểu diễn thành một véc-tơ; mỗi thành phần của véc-tơ là một từ riêng biệt trong tập văn bản và được gán một giá trị là trọng số của từ đĩ trong văn bản đĩ. Bài tốn biểu diễn văn bản theo mơ hình khơng gian véc-tơ như sau: Đầu vào là một tập gồm cĩ j văn bản trong miền ứng dụng D, với D = {d1, d2, dj} và tập gồm m từ trong mỗi văn bản T = {t1, t2, tm}; đầu ra lần lượt đánh trọng số cho từng từ trong mỗi văn bản, từ đĩ xây dựng ma trận trọng số wij là trọng số của từ wj trong văn bản dj € D. Cĩ nhiều giải pháp để đánh trọng số của từ ti trong văn bản dj, trong đĩ giải pháp tích hợp tần số xuất hiện từ khĩa (TF - Term Frequency) và nghịch đảo tần số xuất hiện trong các văn bản (IDF- Inverse Document Frequency) được sử dụng khá phổ biến. TF dùng để ước lượng tần suất xuất hiện của một từ trong một văn bản nào đĩ. Bên cạnh đĩ, mỗi văn bản đều cĩ độ dài, số lượng từ ngữ khác nhau vì thế số lần xuất hiện của từ sẽ khác nhau. Do đĩ, để đánh trọng số của một từ người ta lấy số lần xuất hiện của từ đĩ chia cho độ dài của văn bản (số từ của văn bản) như biểu thức 3.1: TF�ti, dj�= số lần từ ti xuất hiện trong văn bản djtổng số từ trong văn bản dj 3.1 Khi tính tần số TF của một từ thì tất cả các từ trong tập từ cĩ mức độ quan trọng là như nhau. Tuy nhiên, nhiều nghiên cứu cho thấy khơng hẳn trong một tập dữ liệu tất cả các từ đều quan trọng. Những từ thường khơng cĩ độ quan trọng cao là từ nối (nên, nhưng, bên cạnh đĩ, vì, như vậy), từ chỉ định (kìa, đĩ, ấy, thế), giới từ (trên, trong, ngồi, ở, tại). Chính những lý do trên mà ta cần giảm đi mức độ quan trọng của những từ đĩ bằng cách tính IDF thơng qua biểu thức 3.2: 58 IDF(ti, D) = log tổng số văn bản trong tập mẫu Dsố văn bản cĩ chứa từ ti 3.2 TF*IDF là sự tích hợp giữa tần số xuất hiện từ khĩa TF và nghịch đảo tần số xuất hiện trong các văn bản IDF. Phương pháp này khá phổ biến được dùng để tính giá trị TF*IDF của một từ thơng qua mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản. Những từ cĩ IF*IDF cao là những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác. Thơng qua phương pháp này, chúng ta cĩ thể lọc ra những từ phổ biến và giữ lại những từ cĩ giá trị cao. 3.2.3. Mơ hình phân loại tài nguyên học tập Mơ hình đề xuất được trình bày như Hình 3.1. Trong đĩ, các thuộc tính đầu vào được chọn từ Bảng 3.1 và đầu ra (dự đốn) của mơ hình bao gồm các lớp phụ thuộc vào tập dữ liệu đã chọn. Các thực nghiệm tìm kiếm siêu tham số được thực hiện trên các tập dữ liệu. Bắt đầu từ một lớp ẩn, số lượng nơ-ron từ 2 lên 128 được tăng dần, mỗi lần tăng theo bội số 2 (2n với n = 1..7). Khi cĩ được số nơ-ron tốt nhất, giả sử k, để kiểm tra chúng ta bắt đầu tăng số lượng lớp ẩn từ 2 lên 5 với k nơ-ron cho mỗi lớp ẩn để quan sát những thay đổi trong kết quả dự đốn. Chẳng hạn đối với tập dữ liệu Scientific_Articles các tham số tìm được mơ tả như kiến trúc mạng MLP ở Hình 3.2. Mạng nhận 3.431 thuộc tính của tập dữ liệu làm đầu vào, theo sau là một lớp ẩn bao gồm 16 nơ-ron và đầu ra là 9 nơ-ron tương ứng với xác suất dự đốn của 9 chủ đề phân loại. Tương tự, các siêu tham số trên các tập dữ liệu khác cũng được tìm kiếm. Sau khi chọn siêu tham số từ các thực nghiệm, chúng tơi giữ lại số nơ-ron và số lớp ẩn để dự đốn trên 5 tập dữ liệu, số lượng nơ-ron của lớp input và lớp output cĩ thể thay đổi tùy thuộc vào tập dữ liệu. Hình 3.2: Kiến trúc MLP được đề xuất thơng qua các thử nghiệm với các thơng số khác nhau trên tập dữ liệu Scientific_Articles Mơ hình MLP phân lớp (hay phân loại) nhị phân sử dụng hàm kích hoạt sigmoid để thực hiện dự đốn. Đối với các bài tốn phân đa lớp, hàm Softmax với k lớp được sử dụng. Hàm này làm nhiệm vụ chuẩn hĩa một giá trị đầu vào thành một véc-tơ, các giá trị tuân theo phân phối xác suất cĩ tổng bằng 1. Hàm kích hoạt ReLU cũng được thực hiện trong kiến trúc MLP. 59 3.3. Mơ tả tập dữ liệu và độ đo đánh giá mơ hình Như mơ tả ở Bảng 3.1, nguồn tài nguyên học tập sử dụng cho nghiên cứu này là 5 tập dữ liệu thực nghiệm với ba ngơn ngữ khác nhau (tiếng Anh, tiếng Thổ Nhĩ Kỳ và tiếng Việt). Bảng 3.1: Các tập dữ liệu thực nghiệm Data set #Instances #Attributes #Classes Language Reuters_Newswire 2.158 1.503 2 English School_Text_Books 1.786 2.566 4 English Turkish_News_Articles 3.600 5.693 6 Turkish Scientific_Articles 650 3.431 9 Vietnamese VnExpress_Newsletters 10.000 3.266 10 Vietnamese Với 5 tập dữ liệu trên, số lớp xem xét cũng thay đổi từ 2 phân đến 10 lớp. Tập dữ liệu thứ nhất là các bài báo tin tức tài chính Reuters_Newswire (Weiss, 2019) sử dụng cho phân loại nhị phân. Tập dữ liệu thứ hai là nguồn học liệu mở của bộ sách giáo khoa lớp 11 và lớp 12 School_Text_Books (Deepak, 2020) của Kaggle với 4 lớp chủ đề. Tập dữ liệu thứ ba là tin tức và bài báo của một cổng thơng tin nổi tiếng ở Thổ Nhĩ Kỳ Turkish_News_Articles (Deniz, 2017). Tập dữ liệu thứ tư là các bài báo khoa học được xuất bản trên Tạp chí khoa học Trường Đại học Cần Thơ Scientific_Articles với 9 chủ đề. Tập dữ liệu thứ năm là các bài báo dạng tin tức thuộc báo điện tử VnExpress_Newsletters (Vnexpress, 2020) với 10 chủ đề được sử dụng cho nghiên cứu này. Để đánh giá mơ hình, độ đo AUC với cross-validation là 3-fold được sử dụng; các fold giống nhau đối với các tập huấn luyện và tập kiểm tra. AUC là một phương pháp tính tốn hiệu suất của một mơ hình phân loại, giá trị này là một số dương nhỏ hơn hoặc bằng 1. Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp. Lý do AUC được sử dụng vì đây là độ đo đáng tin cậy để đánh giá các bộ phân loại đối với dữ liệu mất cân bằng. Một số tập dữ liệu thực nghiệm trong nghiên cứu này mất cân bằng do số lượng mẫu của một số lớp lớn hơn khá nhiều so với các lớp khác. Chẳng hạn, một lớp của tập dữ liệu Reuters_Newswire chiếm tới 97% trong khi các lớp cịn lại chỉ chiếm 3%. Ngồi ra, AUC được sử dụng rộng rãi trong nhiều nghiên cứu để kiểm tra việc thực hiện các dự đốn, vì vậy được xem là thước đo khá tin cậy để đánh giá hiệu quả dự đốn các lớp. 3.4. Cài đặt các siêu tham số và mơi trường thực nghiệm Để chọn các tham số thích hợp cho các mơ hình MLP, các cấu hình khác nhau của kiến trúc MLP được chạy thử nghiệm. Hình 3.3 mơ tả hiệu suất của các cấu hình khác nhau của MLP trên một tập dữ liệu được lấy làm mẫu là Scientific_Articles. Kết quả cho thấy hiệu suất tăng lên theo độ lớn của mạng MLP. Tuy nhiên, hiệu suất đạt đến đỉnh và thay đổi tùy thuộc vào số lượng lớp ẩn được sử dụng. Sau khi đạt đến đỉnh, hiệu 60 suất cĩ xu hướng giảm dần khi tiếp tục tăng số nơ-ron. Hình 3.3 mơ tả hiệu suất AUC theo số nơ-ron của từng lớp ẩn. Thực nghiệm cho thấy, với một lớp ẩn và số nơ-ron bằng 16 thì AUC bằng 0,977 đạt kết quả tốt n
File đính kèm:
- luan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
- 5-ThongtinLuanan_EN_TranThanhDien.docx
- 4-ThongtinLuanan_VN_TranThanhDien.docx
- 3-TomtatLuanan_EN_TranThanhDien.pdf
- 2-TomtatLuanan_VN_TranThanhDien.pdf