Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 1

Trang 1

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 2

Trang 2

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 3

Trang 3

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 4

Trang 4

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 5

Trang 5

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 6

Trang 6

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 7

Trang 7

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 8

Trang 8

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 9

Trang 9

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 148 trang Hà Tiên 27/02/2024 1270
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
nghiên cứu trước đây, các kỹ thuật mới cĩ thể đề xuất, đặc biệt 
là các kỹ thuật học sâu để xây dựng mơ hình dự đốn xếp hạng và gợi ý tài nguyên học 
tập phù hợp với dữ liệu cụ thể của một trường đại học, trong đĩ cĩ trường đại học đa 
ngành, cũng như các nguồn tài nguyên học tập khác. 
2.6.4. Thảo luận và đề xuất các nghiên cứu của luận án 
Từ các vấn đề nghiên cứu được hệ thống như trên, chúng ta nhận thấy thực tế đã 
cĩ những nghiên cứu liên quan về phân loại văn bản, tìm kiếm tài liệu cĩ quan tâm vấn 
đề ngữ nghĩa cũng như nghiên cứu về dự đốn xếp hạng và gợi ý tài nguyên học tập. 
Với mong muốn sử dụng và cải tiến các nghiên cứu trước đĩ để áp dụng vào lĩnh vực 
giáo dục, luận án này đề xuất các giải pháp, kỹ thuật nhằm giải quyết bài tốn về tìm 
kiếm và gợi ý tài nguyên học tập phù hợp với nhu cầu và năng lực người học. Cụ thể, 
luận án nghiên cứu các vấn đề chính sau đây: 
1. Nghiên cứu về phân loại tài nguyên học tập: Để giới hạn khơng gian tìm kiếm, 
giúp cho quá trình tìm kiếm nhanh và chính xác hơn thì phân loại tài nguyên học tập và 
phân loại câu truy vấn là nhiệm vụ rất quan trọng. Tùy vào dữ liệu thực tế cĩ thể quyết 
định sử dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Luận án này đề xuất mơ 
hình phân loại tài nguyên học tập sử dụng các kỹ thuật khác nhau, đặc biệt là kỹ thuật 
học sâu. Luận án sử dụng nhiều tập dữ liệu với nhiều ngơn ngữ khác nhau, cĩ số lớp 
khác nhau, số mẫu cĩ thể khác biệt lớn để đánh giá khách quan hiệu quả của kỹ thuật 
phân loại được đề xuất. 
2. Nghiên cứu về tìm kiếm tài nguyên học tập: Thực tế đã cĩ nhiều cách tiếp cận 
về tìm kiếm tài nguyên học tập (hay tìm kiếm tài liệu nĩi chung). Trong đĩ, tìm kiếm cĩ 
quan tâm đến vấn đề ngữ nghĩa được quan tâm nhiều do đáp ứng tốt hơn nhu cầu của 
người dùng. Các nghiên cứu về tìm kiếm ngữ nghĩa đã được đề xuất bởi nhiều nhà 
nghiên cứu như đề cập ở trên, tuy nhiên trong lĩnh vực giáo dục, đặc biệt trong tìm kiếm 
tài nguyên học tập phục vụ dạy và học vẫn cịn ít nghiên cứu. Vì vậy, luận án này đề 
xuất các mơ hình tìm kiếm tài nguyên học tập dựa trên tính tốn sự tương đồng về nội 
dung văn bản bằng cách kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương 
đồng về thứ tự từ trong văn bản, và tìm kiếm dựa trên mạng ngữ nghĩa ontology dùng 
biểu diễn thơng tin. Một vấn đề được chú trọng trong luận án này là truy vấn (query) và 
53 
tài nguyên học tập được xử lý và phân loại trước khi thực hiện tìm kiếm giúp cho quá 
trình tìm kiếm nhanh và hiệu quả hơn. Truy vấn ở đây cĩ thể là một cụm từ hoặc một 
tài liệu (tài nguyên học tập). 
3. Nghiên cứu về dự đốn xếp hạng kết quả học tập: Hiện nay, cĩ nhiều hệ thống 
dự đốn xếp hạng với các cách tiếp cận khác nhau. Tuy nhiên, trong lĩnh vực giáo dục, 
đặc biệt là sử dụng nguồn dữ liệu thực tế về kết quả học tập của sinh viên, vấn đề này 
chưa được quan tâm nhiều. Kế thừa các nghiên cứu trước đĩ, luận án đề xuất xây dựng 
các mơ hình dự đốn xếp hạng sử dụng các kỹ thuật tiến tiến, đặc biệt là kỹ thuật học 
sâu như mạng nơ-ron tích chập CNN, mạng nơ-ron truyền thẳng đa tầng MLP và bộ nhớ 
ngắn dài hạn LSTM, với các cách tiếp cận khác nhau gồm xây dựng mơ hình dự đốn 
cho tồn bộ sinh viên, mơ hình dự đốn theo nhĩm năng lực học tập và mơ hình dự đốn 
theo từng sinh viên. 
4. Nghiên cứu về gợi ý tài nguyên học tập: Trên thực tế, bài tốn dự đốn xếp hạng 
(rating prediction) và gợi ý (recommendation) khơng tách rời nhau. Từ kết quả dự đốn 
cĩ thể chọn ra các kết quả được xếp hạng cao để gợi ý. Đối với tài nguyên học tập, kết 
quả của hoạt động dự đốn làm tiền đề cĩ thể sử dụng cho gợi ý được hiệu quả và chính 
xác hơn. Luận án này đề xuất mơ hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân 
rã ma trận sâu DMF (Deep Matrix Factorization) được mở rộng từ phân rã ma trận chuẩn 
MF và so sánh với các kỹ thuật khác của hệ thống gợi ý (gọi là baselines). 
Trên đây, các nghiên cứu liên quan cũng như cơ sở lý thuyết và các kỹ thuật về 
phân loại tài nguyên học tập, kỹ thuật tìm kiếm tài nguyên học tập dựa trên độ tương 
đồng văn bản và dựa trên mạng ngữ nghĩa, hệ thống gợi ý và các kỹ thuật trong hệ thống 
gợi ý được trình bày. Trong các phần tiếp theo của luận án, các mơ hình phân loại tài 
nguyên học tập, mơ hình tìm kiếm tài nguyên học tập, mơ hình dự đốn kết quả học tập 
và mơ hình gợi ý tài nguyên học tập lần lượt được trình bày. Cuối cùng là một số kết 
luận và hướng nghiên cứu tiếp theo của luận án. 
54 
CHƯƠNG 3. MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP 
Chương này trình bày mơ hình phân loại tài nguyên học tập nhằm giới hạn được 
khơng gian tìm kiếm giúp cho quá trình tìm kiếm tài nguyên học tập đạt hiệu quả hơn. 
Đầu tiên, dữ liệu được tiền xử lý, sau đĩ rút trích đặc trưng, véc-tơ hĩa và thực hiện 
phân loại. Việc phân loại tài nguyên học tập được đề xuất dựa trên các kỹ thuật học máy 
và học sâu. 
Những kết quả chính của chương này là đề xuất cách tiếp cận kỹ thuật học sâu với 
mạng nơ-ron truyền thẳng đa tầng MLP (Multilayer Perceptron) để phân loại tài nguyên 
học tập. Thực nghiệm cho thấy phương pháp này cho kết quả khả thi hơn so với việc sử 
dụng các kỹ thuật học máy khác như cây quyết định (Decision Tree), máy véc-tơ hỗ trợ 
SVM (Support Vector Machine)... Trong quá trình thực nghiệm, nhiều tập dữ liệu thuộc 
nhiều ngơn ngữ khác nhau, cĩ số lớp, số mẫu khác nhau đã được thu thập và sử dụng để 
việc đánh giá phân loại tài nguyên học tập được khách quan. Do dữ liệu dùng phân loại 
ở dạng mất cân bằng (số lớp, số mẫu) nên độ đo AUC được sử dụng như là phép đo 
đánh giá độ chính xác của phân loại tài nguyên học tập. 
Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT1 (Dien, T. T. 
et al., 2019), CT2 (Dien, Tran Thanh and Thanh-Hai, Nguyen et al., 2020). 
3.1. Giới thiệu 
Với sự phát triển bùng nổ của thơng tin và sự phát triển đồng thời của khả năng 
tính tốn tự động, phân loại dữ liệu, đặc biệt là dữ liệu văn bản cĩ ý nghĩa quan trọng. 
Phân lớp văn bản (text classification) là một kỹ thuật học cĩ giám sát, được triển khai 
nhiều trong thực tế. Trong lĩnh vực học máy (machine learning) và xử lý ngơn ngữ tự 
nhiên (Natural Language Processing-NLP), phân lớp văn bản là một bài tốn nhằm phân 
một văn bản mới vào nhĩm các văn bản cho trước dựa trên sự tương đồng của văn bản 
đĩ so với nhĩm văn bản (Sebastiani, 2002); là việc gán nhãn lên một văn bản mới dựa 
trên mức độ tương đồng của văn bản đĩ so với các văn bản đã được gán nhãn (Yang and 
Liu, 1999). Với số lượng văn bản rất lớn trên mỗi chủ đề, thao tác phân loại lần lượt 
trong từng văn bản sẽ mất rất nhiều thời gian, cơng sức, chưa kể khả năng xảy ra trường 
hợp phân loại khơng chính xác do tính chủ quan của người phân loại. Chẳng hạn trong 
hệ thống nộp bài tự phân loại lĩnh vực như Hiệp hội quốc tế về nghiên cứu, giáo dục 
ngành khoa học máy tính ACM (Association for Computing Machinery) với hơn 2.000 
chủ đề, tác giả mất rất nhiều thời gian để xác định chủ đề của bài viết cần nộp vào. Vì 
vậy, phân loại văn bản tự động giúp cho quá trình lưu trữ, tìm kiếm thơng tin nhanh chĩng 
hơn, đặc biệt trong thời kỳ thơng tin bùng nổ thì dữ liệu ngày càng đa dạng và rộng lớn 
hơn. 
55 
Phân loại văn bản được ứng dụng nhiều trong thực tiễn như lọc thư rác, quản lý tri 
thức, hỗ trợ các cơng cụ tìm kiếm trên Internet, phân loại chủ đề tập tài liệu (Thaoroijam, 
2014; Li et al., 2017)... Vấn đề phân loại văn bản được nhiều nhà khoa học quan tâm 
với các hướng tiếp cận khác nhau. Một cách tiếp cận được nhiều nhà nghiên cứu sử dụng 
là phương pháp học máy, với nhiều giải thuật được sử dụng như k láng giềng gần nhất, 
Nạve Bayes, máy véc-tơ hỗ trợ, cây quyết định, mạng nơ-ron nhân tạo (Cortes and 
Vapnik, 1995; McCallum and Nigam, 1998; Aggarwal and Zhai, 2012; Bijaksana et al., 
2013; Haddoud et al., 2016). 
Phân loại văn bản khơng phải là bài tốn mới. Tuy nhiên, trong chương này vấn 
đề phân loại tài nguyên học tập sử dụng kỹ thuật học sâu, cĩ sự so sánh với các kỹ thuật 
học máy khác được tập trung giải quyết, từ đĩ cho thấy hiệu quả của kỹ thuật học sâu 
được đề xuất. 
Nội dung tiếp theo của chương được trình bày như sau: mơ hình phân loại văn bản 
cùng với kỹ thuật tiền xử lý, mơ tả các tập dữ liệu dùng làm thực nghiệm, sau đĩ các kết 
quả thực nghiệm, cuối cùng là tổng kết và nhận xét về kết quả nghiên cứu. 
3.2. Mơ hình phân loại tài nguyên học tập 
3.2.1. Phân loại tài nguyên học tập 
Phân loại tài nguyên học tập hay phân lớp văn bản nĩi chung (text classification) 
là quá trình rút trích các đặc trưng (feature extraction) từ tập dữ liệu và dự đốn xem nĩ 
thuộc loại tài liệu nào dựa trên các đặc trưng đĩ (Kowsari et al., 2019). Phân loại văn 
bản là cơng việc cơ bản và cần thiết trong xử lý ngơn ngữ tự nhiên. 
Thời gian qua, nhiều phương pháp tiếp cận đạt được những kết quả quan trọng 
trong phân loại văn bản. Sự thành cơng đĩ dựa trên khả năng hiểu được các mơ hình 
phức tạp và các mối quan hệ phi tuyến tính trong dữ liệu. Hơn một thập kỷ qua, nghiên 
cứu trong lĩnh vực này đã gia tăng do thành cơng chưa từng cĩ của kỹ thuật học máy, 
gần đây là học sâu (Li et al., 2020). 
Phân loại tài nguyên được nhiều trường đại học, viện nghiên cứu quan tâm, ứng 
dụng giải quyết các bài tốn cụ thể. Chẳng hạn tài nguyên học tập là bài báo khoa học 
gửi đăng các tạp chí, các hội thảo. Các hệ thống nhận bài của các tạp chí cĩ quy mơ lớn 
thường cĩ rất nhiều chủ đề, như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa 
học máy tính ACM cĩ hơn 2.000 chủ đề, do vậy cần phân loại tự động để xác định một 
bài viết thuộc chủ đề nào. 
Trong nghiên cứu này, mơ hình loại tài nguyên học tập bằng các kỹ thuật học máy 
và học sâu được đề xuất. Các tập dữ liệu thực nghiệm là các nguồn tài nguyên học tập 
được thu thập từ nhiều nguồn khác nhau. Ngồi ra, các kỹ thuật xử lý ngơn ngữ tự nhiên 
cũng được sử dụng để tiền xử lý dữ liệu trước khi kiểm chứng mơ hình. 
56 
Hệ thống tổng quát của mơ hình phân loại tài nguyên học tập được trình bày trong 
Hình 3.1. Cụ thể tài nguyên học tập ở đây là các bài báo (article) của các tập dữ liệu 
khác nhau. Trong mơ hình này, khi một bài báo mới (định dạng .doc, .html,) gửi đến 
hệ thống sẽ được phân loại thành một chủ đề dựa trên dữ liệu trước đĩ được huấn luyện 
bởi các mơ hình học máy, học sâu. 
Hình 3.1: Kiến trúc đề xuất để tiền xử lý và phân loại tài nguyên học tập 
3.2.2. Tiền xử lý dữ liệu 
Quá trình tiền xử lý dữ liệu được mơ tả như Giải thuật 3.1. Quá trình tiền xử lý 
gồm nhiều cơng việc khác nhau. 
Giải thuật 3.1: PreProccessing Data: InputDocument d 1 Convertion(d) // convert the input document (.doc/.pdf) to text 2 WordSegmention(d) // separate document to words 3 WordNormalization(d) // changed to lower cases, removing blanks 4 RemovingStopWords(d) // remove noise words 5 Vectorization(d) // convert documents to respectively vectors 6 Return sets of Vectorized-Documents D 
Convertion(d): Chuyển đổi dữ liệu từ các định dạng khác nhau sang định dạng văn 
bản thuần túy (.txt) để dễ dàng sử dụng trong hầu hết các giải thuật. Nhiều cơng cụ cĩ 
thể được dùng để chuyển đổi định dạng dữ liệu, trong nghiên cứu này, cơng cụ Apache 
POI được sử dụng vì nĩ phù hợp với các tập dữ liệu lớn. 
WordSegmention(d): Đối với tiếng Việt, dấu cách (space) khơng cĩ nhiệm vụ tách 
từ mà chỉ phân cách giữa các âm tiết. Chính vì vậy, giai đoạn tách từ cũng khá quan 
trọng trong xử lý ngơn ngữ tự nhiên. Nghiên cứu này đã sử dụng cơng cụ tách từ 
VnTokenizer dựa trên cách tiếp cận tổng hợp các phương pháp Maximum Matching, 
WFST và regular expression parsing, với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt 
và từ điển từ vựng tiếng Việt. Đây là cơng cụ tách từ tiếng Việt tự động, tách các văn 
bản tiếng Việt thành các đơn vị từ vựng (từ ngữ, tên, số, ngày tháng và các biểu thức 
chính quy khác) với độ chính xác hơn 95% (Nguyễn Thị Minh Huyền et al., 2010). 
57 
WordNormalization(d): Dữ liệu cần được chuẩn hĩa từ để chuyển tất cả ký tự của 
văn bản thành chữ thường, xĩa các khoảng trống, trước khi thực hiện xĩa các từ khơng 
cần thiết gây nhiễu. 
RemovingStopWords(d): Từ dừng (stop words) là những từ khơng bổ sung nhiều 
ý nghĩa cho một câu, khơng chứa thơng tin đáng giá để sử dụng và cĩ thể được bỏ qua 
mà khơng làm mất đi ý nghĩa của câu. Stop words thường xuất hiện nhiều trong tất cả 
các văn bản trong tập dữ liệu (Saif et al., 2014). Trong phân loại văn bản, sự xuất hiện 
của stop words khơng những khơng giúp gì trong việc đánh giá phân loại mà cịn gây 
nhiễu và giảm độ chính xác của quá trình phân loại (như các từ: thì, là, mà, và, hoặc, 
bởi). 
Vectorization(d): Cĩ một số mơ hình biểu diễn văn bản như mơ hình khơng gian 
véc-tơ (vector space model) dựa trên phương pháp đánh trọng số của từ theo tần số, mơ 
hình túi từ (bag of words model), mơ hình hĩa văn bản thành đồ thị (graph-based model). 
Nghiên cứu đề cập phương pháp biểu diễn văn bản theo mơ hình khơng gian véc-tơ do 
mơ hình này biểu diễn tương đối đơn giản và hiệu quả (Perone, 2013). Theo mơ hình 
này, mỗi văn bản được biểu diễn thành một véc-tơ; mỗi thành phần của véc-tơ là một từ 
riêng biệt trong tập văn bản và được gán một giá trị là trọng số của từ đĩ trong văn bản 
đĩ. 
Bài tốn biểu diễn văn bản theo mơ hình khơng gian véc-tơ như sau: Đầu vào là 
một tập gồm cĩ j văn bản trong miền ứng dụng D, với D = {d1, d2, dj} và tập gồm m từ 
trong mỗi văn bản T = {t1, t2, tm}; đầu ra lần lượt đánh trọng số cho từng từ trong mỗi 
văn bản, từ đĩ xây dựng ma trận trọng số wij là trọng số của từ wj trong văn bản dj € D. 
Cĩ nhiều giải pháp để đánh trọng số của từ ti trong văn bản dj, trong đĩ giải pháp tích 
hợp tần số xuất hiện từ khĩa (TF - Term Frequency) và nghịch đảo tần số xuất hiện trong 
các văn bản (IDF- Inverse Document Frequency) được sử dụng khá phổ biến. 
TF dùng để ước lượng tần suất xuất hiện của một từ trong một văn bản nào đĩ. 
Bên cạnh đĩ, mỗi văn bản đều cĩ độ dài, số lượng từ ngữ khác nhau vì thế số lần xuất 
hiện của từ sẽ khác nhau. Do đĩ, để đánh trọng số của một từ người ta lấy số lần xuất 
hiện của từ đĩ chia cho độ dài của văn bản (số từ của văn bản) như biểu thức 3.1: TF�ti, dj�= số lần từ ti xuất hiện trong văn bản djtổng số từ trong văn bản dj 3.1 
Khi tính tần số TF của một từ thì tất cả các từ trong tập từ cĩ mức độ quan trọng 
là như nhau. Tuy nhiên, nhiều nghiên cứu cho thấy khơng hẳn trong một tập dữ liệu tất 
cả các từ đều quan trọng. Những từ thường khơng cĩ độ quan trọng cao là từ nối (nên, 
nhưng, bên cạnh đĩ, vì, như vậy), từ chỉ định (kìa, đĩ, ấy, thế), giới từ (trên, trong, 
ngồi, ở, tại). Chính những lý do trên mà ta cần giảm đi mức độ quan trọng của những 
từ đĩ bằng cách tính IDF thơng qua biểu thức 3.2: 
58 
IDF(ti, D) = log tổng số văn bản trong tập mẫu Dsố văn bản cĩ chứa từ ti 3.2 
TF*IDF là sự tích hợp giữa tần số xuất hiện từ khĩa TF và nghịch đảo tần số xuất 
hiện trong các văn bản IDF. Phương pháp này khá phổ biến được dùng để tính giá trị 
TF*IDF của một từ thơng qua mức độ quan trọng của từ này trong một văn bản, mà bản 
thân văn bản đang xét nằm trong một tập hợp các văn bản. Những từ cĩ IF*IDF cao là 
những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác. 
Thơng qua phương pháp này, chúng ta cĩ thể lọc ra những từ phổ biến và giữ lại những 
từ cĩ giá trị cao. 
3.2.3. Mơ hình phân loại tài nguyên học tập 
Mơ hình đề xuất được trình bày như Hình 3.1. Trong đĩ, các thuộc tính đầu vào 
được chọn từ Bảng 3.1 và đầu ra (dự đốn) của mơ hình bao gồm các lớp phụ thuộc vào 
tập dữ liệu đã chọn. Các thực nghiệm tìm kiếm siêu tham số được thực hiện trên các tập 
dữ liệu. Bắt đầu từ một lớp ẩn, số lượng nơ-ron từ 2 lên 128 được tăng dần, mỗi lần tăng 
theo bội số 2 (2n với n = 1..7). Khi cĩ được số nơ-ron tốt nhất, giả sử k, để kiểm tra 
chúng ta bắt đầu tăng số lượng lớp ẩn từ 2 lên 5 với k nơ-ron cho mỗi lớp ẩn để quan sát 
những thay đổi trong kết quả dự đốn. 
Chẳng hạn đối với tập dữ liệu Scientific_Articles các tham số tìm được mơ tả như 
kiến trúc mạng MLP ở Hình 3.2. Mạng nhận 3.431 thuộc tính của tập dữ liệu làm đầu 
vào, theo sau là một lớp ẩn bao gồm 16 nơ-ron và đầu ra là 9 nơ-ron tương ứng với xác 
suất dự đốn của 9 chủ đề phân loại. Tương tự, các siêu tham số trên các tập dữ liệu 
khác cũng được tìm kiếm. Sau khi chọn siêu tham số từ các thực nghiệm, chúng tơi giữ 
lại số nơ-ron và số lớp ẩn để dự đốn trên 5 tập dữ liệu, số lượng nơ-ron của lớp input 
và lớp output cĩ thể thay đổi tùy thuộc vào tập dữ liệu. 
Hình 3.2: Kiến trúc MLP được đề xuất thơng qua các thử nghiệm với các thơng số 
khác nhau trên tập dữ liệu Scientific_Articles 
Mơ hình MLP phân lớp (hay phân loại) nhị phân sử dụng hàm kích hoạt sigmoid 
để thực hiện dự đốn. Đối với các bài tốn phân đa lớp, hàm Softmax với k lớp được sử 
dụng. Hàm này làm nhiệm vụ chuẩn hĩa một giá trị đầu vào thành một véc-tơ, các giá 
trị tuân theo phân phối xác suất cĩ tổng bằng 1. Hàm kích hoạt ReLU cũng được thực 
hiện trong kiến trúc MLP. 
59 
3.3. Mơ tả tập dữ liệu và độ đo đánh giá mơ hình 
Như mơ tả ở Bảng 3.1, nguồn tài nguyên học tập sử dụng cho nghiên cứu này là 5 
tập dữ liệu thực nghiệm với ba ngơn ngữ khác nhau (tiếng Anh, tiếng Thổ Nhĩ Kỳ và 
tiếng Việt). 
Bảng 3.1: Các tập dữ liệu thực nghiệm 
Data set #Instances #Attributes #Classes Language 
Reuters_Newswire 2.158 1.503 2 English 
School_Text_Books 1.786 2.566 4 English 
Turkish_News_Articles 3.600 5.693 6 Turkish 
Scientific_Articles 650 3.431 9 Vietnamese 
VnExpress_Newsletters 10.000 3.266 10 Vietnamese 
Với 5 tập dữ liệu trên, số lớp xem xét cũng thay đổi từ 2 phân đến 10 lớp. Tập dữ 
liệu thứ nhất là các bài báo tin tức tài chính Reuters_Newswire (Weiss, 2019) sử dụng 
cho phân loại nhị phân. Tập dữ liệu thứ hai là nguồn học liệu mở của bộ sách giáo khoa 
lớp 11 và lớp 12 School_Text_Books (Deepak, 2020) của Kaggle với 4 lớp chủ đề. Tập 
dữ liệu thứ ba là tin tức và bài báo của một cổng thơng tin nổi tiếng ở Thổ Nhĩ Kỳ 
Turkish_News_Articles (Deniz, 2017). Tập dữ liệu thứ tư là các bài báo khoa học được 
xuất bản trên Tạp chí khoa học Trường Đại học Cần Thơ Scientific_Articles với 9 chủ 
đề. Tập dữ liệu thứ năm là các bài báo dạng tin tức thuộc báo điện tử 
VnExpress_Newsletters (Vnexpress, 2020) với 10 chủ đề được sử dụng cho nghiên cứu 
này. 
Để đánh giá mơ hình, độ đo AUC với cross-validation là 3-fold được sử dụng; các 
fold giống nhau đối với các tập huấn luyện và tập kiểm tra. AUC là một phương pháp 
tính tốn hiệu suất của một mơ hình phân loại, giá trị này là một số dương nhỏ hơn hoặc 
bằng 1. Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp. 
Lý do AUC được sử dụng vì đây là độ đo đáng tin cậy để đánh giá các bộ phân loại đối 
với dữ liệu mất cân bằng. Một số tập dữ liệu thực nghiệm trong nghiên cứu này mất cân 
bằng do số lượng mẫu của một số lớp lớn hơn khá nhiều so với các lớp khác. Chẳng 
hạn, một lớp của tập dữ liệu Reuters_Newswire chiếm tới 97% trong khi các lớp cịn lại 
chỉ chiếm 3%. Ngồi ra, AUC được sử dụng rộng rãi trong nhiều nghiên cứu để kiểm 
tra việc thực hiện các dự đốn, vì vậy được xem là thước đo khá tin cậy để đánh giá hiệu 
quả dự đốn các lớp. 
3.4. Cài đặt các siêu tham số và mơi trường thực nghiệm 
Để chọn các tham số thích hợp cho các mơ hình MLP, các cấu hình khác nhau của 
kiến trúc MLP được chạy thử nghiệm. Hình 3.3 mơ tả hiệu suất của các cấu hình khác 
nhau của MLP trên một tập dữ liệu được lấy làm mẫu là Scientific_Articles. Kết quả 
cho thấy hiệu suất tăng lên theo độ lớn của mạng MLP. Tuy nhiên, hiệu suất đạt đến 
đỉnh và thay đổi tùy thuộc vào số lượng lớp ẩn được sử dụng. Sau khi đạt đến đỉnh, hiệu 
60 
suất cĩ xu hướng giảm dần khi tiếp tục tăng số nơ-ron. Hình 3.3 mơ tả hiệu suất AUC 
theo số nơ-ron của từng lớp ẩn. Thực nghiệm cho thấy, với một lớp ẩn và số nơ-ron bằng 
16 thì AUC bằng 0,977 đạt kết quả tốt n

File đính kèm:

  • pdfluan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
  • docx5-ThongtinLuanan_EN_TranThanhDien.docx
  • docx4-ThongtinLuanan_VN_TranThanhDien.docx
  • pdf3-TomtatLuanan_EN_TranThanhDien.pdf
  • pdf2-TomtatLuanan_VN_TranThanhDien.pdf