Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

148 trang Hà Tiên 27/02/2024 4270

Download

Bạn đang xem 10 trang mẫu của tài liệu "Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

nghiên cứu trước đây, các kỹ thuật mới cĩ thể đề xuất, đặc biệt
là các kỹ thuật học sâu để xây dựng mơ hình dự đốn xếp hạng và gợi ý tài nguyên học
tập phù hợp với dữ liệu cụ thể của một trường đại học, trong đĩ cĩ trường đại học đa
ngành, cũng như các nguồn tài nguyên học tập khác.
2.6.4. Thảo luận và đề xuất các nghiên cứu của luận án
Từ các vấn đề nghiên cứu được hệ thống như trên, chúng ta nhận thấy thực tế đã
cĩ những nghiên cứu liên quan về phân loại văn bản, tìm kiếm tài liệu cĩ quan tâm vấn
đề ngữ nghĩa cũng như nghiên cứu về dự đốn xếp hạng và gợi ý tài nguyên học tập.
Với mong muốn sử dụng và cải tiến các nghiên cứu trước đĩ để áp dụng vào lĩnh vực
giáo dục, luận án này đề xuất các giải pháp, kỹ thuật nhằm giải quyết bài tốn về tìm
kiếm và gợi ý tài nguyên học tập phù hợp với nhu cầu và năng lực người học. Cụ thể,
luận án nghiên cứu các vấn đề chính sau đây:
1. Nghiên cứu về phân loại tài nguyên học tập: Để giới hạn khơng gian tìm kiếm,
giúp cho quá trình tìm kiếm nhanh và chính xác hơn thì phân loại tài nguyên học tập và
phân loại câu truy vấn là nhiệm vụ rất quan trọng. Tùy vào dữ liệu thực tế cĩ thể quyết
định sử dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Luận án này đề xuất mơ
hình phân loại tài nguyên học tập sử dụng các kỹ thuật khác nhau, đặc biệt là kỹ thuật
học sâu. Luận án sử dụng nhiều tập dữ liệu với nhiều ngơn ngữ khác nhau, cĩ số lớp
khác nhau, số mẫu cĩ thể khác biệt lớn để đánh giá khách quan hiệu quả của kỹ thuật
phân loại được đề xuất.
2. Nghiên cứu về tìm kiếm tài nguyên học tập: Thực tế đã cĩ nhiều cách tiếp cận
về tìm kiếm tài nguyên học tập (hay tìm kiếm tài liệu nĩi chung). Trong đĩ, tìm kiếm cĩ
quan tâm đến vấn đề ngữ nghĩa được quan tâm nhiều do đáp ứng tốt hơn nhu cầu của
người dùng. Các nghiên cứu về tìm kiếm ngữ nghĩa đã được đề xuất bởi nhiều nhà
nghiên cứu như đề cập ở trên, tuy nhiên trong lĩnh vực giáo dục, đặc biệt trong tìm kiếm
tài nguyên học tập phục vụ dạy và học vẫn cịn ít nghiên cứu. Vì vậy, luận án này đề
xuất các mơ hình tìm kiếm tài nguyên học tập dựa trên tính tốn sự tương đồng về nội
dung văn bản bằng cách kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương
đồng về thứ tự từ trong văn bản, và tìm kiếm dựa trên mạng ngữ nghĩa ontology dùng
biểu diễn thơng tin. Một vấn đề được chú trọng trong luận án này là truy vấn (query) và
53
tài nguyên học tập được xử lý và phân loại trước khi thực hiện tìm kiếm giúp cho quá
trình tìm kiếm nhanh và hiệu quả hơn. Truy vấn ở đây cĩ thể là một cụm từ hoặc một
tài liệu (tài nguyên học tập).
3. Nghiên cứu về dự đốn xếp hạng kết quả học tập: Hiện nay, cĩ nhiều hệ thống
dự đốn xếp hạng với các cách tiếp cận khác nhau. Tuy nhiên, trong lĩnh vực giáo dục,
đặc biệt là sử dụng nguồn dữ liệu thực tế về kết quả học tập của sinh viên, vấn đề này
chưa được quan tâm nhiều. Kế thừa các nghiên cứu trước đĩ, luận án đề xuất xây dựng
các mơ hình dự đốn xếp hạng sử dụng các kỹ thuật tiến tiến, đặc biệt là kỹ thuật học
sâu như mạng nơ-ron tích chập CNN, mạng nơ-ron truyền thẳng đa tầng MLP và bộ nhớ
ngắn dài hạn LSTM, với các cách tiếp cận khác nhau gồm xây dựng mơ hình dự đốn
cho tồn bộ sinh viên, mơ hình dự đốn theo nhĩm năng lực học tập và mơ hình dự đốn
theo từng sinh viên.
4. Nghiên cứu về gợi ý tài nguyên học tập: Trên thực tế, bài tốn dự đốn xếp hạng
(rating prediction) và gợi ý (recommendation) khơng tách rời nhau. Từ kết quả dự đốn
cĩ thể chọn ra các kết quả được xếp hạng cao để gợi ý. Đối với tài nguyên học tập, kết
quả của hoạt động dự đốn làm tiền đề cĩ thể sử dụng cho gợi ý được hiệu quả và chính
xác hơn. Luận án này đề xuất mơ hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân
rã ma trận sâu DMF (Deep Matrix Factorization) được mở rộng từ phân rã ma trận chuẩn
MF và so sánh với các kỹ thuật khác của hệ thống gợi ý (gọi là baselines).
Trên đây, các nghiên cứu liên quan cũng như cơ sở lý thuyết và các kỹ thuật về
phân loại tài nguyên học tập, kỹ thuật tìm kiếm tài nguyên học tập dựa trên độ tương
đồng văn bản và dựa trên mạng ngữ nghĩa, hệ thống gợi ý và các kỹ thuật trong hệ thống
gợi ý được trình bày. Trong các phần tiếp theo của luận án, các mơ hình phân loại tài
nguyên học tập, mơ hình tìm kiếm tài nguyên học tập, mơ hình dự đốn kết quả học tập
và mơ hình gợi ý tài nguyên học tập lần lượt được trình bày. Cuối cùng là một số kết
luận và hướng nghiên cứu tiếp theo của luận án.
54
CHƯƠNG 3. MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP
Chương này trình bày mơ hình phân loại tài nguyên học tập nhằm giới hạn được
khơng gian tìm kiếm giúp cho quá trình tìm kiếm tài nguyên học tập đạt hiệu quả hơn.
Đầu tiên, dữ liệu được tiền xử lý, sau đĩ rút trích đặc trưng, véc-tơ hĩa và thực hiện
phân loại. Việc phân loại tài nguyên học tập được đề xuất dựa trên các kỹ thuật học máy
và học sâu.
Những kết quả chính của chương này là đề xuất cách tiếp cận kỹ thuật học sâu với
mạng nơ-ron truyền thẳng đa tầng MLP (Multilayer Perceptron) để phân loại tài nguyên
học tập. Thực nghiệm cho thấy phương pháp này cho kết quả khả thi hơn so với việc sử
dụng các kỹ thuật học máy khác như cây quyết định (Decision Tree), máy véc-tơ hỗ trợ
SVM (Support Vector Machine)... Trong quá trình thực nghiệm, nhiều tập dữ liệu thuộc
nhiều ngơn ngữ khác nhau, cĩ số lớp, số mẫu khác nhau đã được thu thập và sử dụng để
việc đánh giá phân loại tài nguyên học tập được khách quan. Do dữ liệu dùng phân loại
ở dạng mất cân bằng (số lớp, số mẫu) nên độ đo AUC được sử dụng như là phép đo
đánh giá độ chính xác của phân loại tài nguyên học tập.
Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT1 (Dien, T. T.
et al., 2019), CT2 (Dien, Tran Thanh and Thanh-Hai, Nguyen et al., 2020).
3.1. Giới thiệu
Với sự phát triển bùng nổ của thơng tin và sự phát triển đồng thời của khả năng
tính tốn tự động, phân loại dữ liệu, đặc biệt là dữ liệu văn bản cĩ ý nghĩa quan trọng.
Phân lớp văn bản (text classification) là một kỹ thuật học cĩ giám sát, được triển khai
nhiều trong thực tế. Trong lĩnh vực học máy (machine learning) và xử lý ngơn ngữ tự
nhiên (Natural Language Processing-NLP), phân lớp văn bản là một bài tốn nhằm phân
một văn bản mới vào nhĩm các văn bản cho trước dựa trên sự tương đồng của văn bản
đĩ so với nhĩm văn bản (Sebastiani, 2002); là việc gán nhãn lên một văn bản mới dựa
trên mức độ tương đồng của văn bản đĩ so với các văn bản đã được gán nhãn (Yang and
Liu, 1999). Với số lượng văn bản rất lớn trên mỗi chủ đề, thao tác phân loại lần lượt
trong từng văn bản sẽ mất rất nhiều thời gian, cơng sức, chưa kể khả năng xảy ra trường
hợp phân loại khơng chính xác do tính chủ quan của người phân loại. Chẳng hạn trong
hệ thống nộp bài tự phân loại lĩnh vực như Hiệp hội quốc tế về nghiên cứu, giáo dục
ngành khoa học máy tính ACM (Association for Computing Machinery) với hơn 2.000
chủ đề, tác giả mất rất nhiều thời gian để xác định chủ đề của bài viết cần nộp vào. Vì
vậy, phân loại văn bản tự động giúp cho quá trình lưu trữ, tìm kiếm thơng tin nhanh chĩng
hơn, đặc biệt trong thời kỳ thơng tin bùng nổ thì dữ liệu ngày càng đa dạng và rộng lớn
hơn.
55
Phân loại văn bản được ứng dụng nhiều trong thực tiễn như lọc thư rác, quản lý tri
thức, hỗ trợ các cơng cụ tìm kiếm trên Internet, phân loại chủ đề tập tài liệu (Thaoroijam,
2014; Li et al., 2017)... Vấn đề phân loại văn bản được nhiều nhà khoa học quan tâm
với các hướng tiếp cận khác nhau. Một cách tiếp cận được nhiều nhà nghiên cứu sử dụng
là phương pháp học máy, với nhiều giải thuật được sử dụng như k láng giềng gần nhất,
Nạve Bayes, máy véc-tơ hỗ trợ, cây quyết định, mạng nơ-ron nhân tạo (Cortes and
Vapnik, 1995; McCallum and Nigam, 1998; Aggarwal and Zhai, 2012; Bijaksana et al.,
2013; Haddoud et al., 2016).
Phân loại văn bản khơng phải là bài tốn mới. Tuy nhiên, trong chương này vấn
đề phân loại tài nguyên học tập sử dụng kỹ thuật học sâu, cĩ sự so sánh với các kỹ thuật
học máy khác được tập trung giải quyết, từ đĩ cho thấy hiệu quả của kỹ thuật học sâu
được đề xuất.
Nội dung tiếp theo của chương được trình bày như sau: mơ hình phân loại văn bản
cùng với kỹ thuật tiền xử lý, mơ tả các tập dữ liệu dùng làm thực nghiệm, sau đĩ các kết
quả thực nghiệm, cuối cùng là tổng kết và nhận xét về kết quả nghiên cứu.
3.2. Mơ hình phân loại tài nguyên học tập
3.2.1. Phân loại tài nguyên học tập
Phân loại tài nguyên học tập hay phân lớp văn bản nĩi chung (text classification)
là quá trình rút trích các đặc trưng (feature extraction) từ tập dữ liệu và dự đốn xem nĩ
thuộc loại tài liệu nào dựa trên các đặc trưng đĩ (Kowsari et al., 2019). Phân loại văn
bản là cơng việc cơ bản và cần thiết trong xử lý ngơn ngữ tự nhiên.
Thời gian qua, nhiều phương pháp tiếp cận đạt được những kết quả quan trọng
trong phân loại văn bản. Sự thành cơng đĩ dựa trên khả năng hiểu được các mơ hình
phức tạp và các mối quan hệ phi tuyến tính trong dữ liệu. Hơn một thập kỷ qua, nghiên
cứu trong lĩnh vực này đã gia tăng do thành cơng chưa từng cĩ của kỹ thuật học máy,
gần đây là học sâu (Li et al., 2020).
Phân loại tài nguyên được nhiều trường đại học, viện nghiên cứu quan tâm, ứng
dụng giải quyết các bài tốn cụ thể. Chẳng hạn tài nguyên học tập là bài báo khoa học
gửi đăng các tạp chí, các hội thảo. Các hệ thống nhận bài của các tạp chí cĩ quy mơ lớn
thường cĩ rất nhiều chủ đề, như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa
học máy tính ACM cĩ hơn 2.000 chủ đề, do vậy cần phân loại tự động để xác định một
bài viết thuộc chủ đề nào.
Trong nghiên cứu này, mơ hình loại tài nguyên học tập bằng các kỹ thuật học máy
và học sâu được đề xuất. Các tập dữ liệu thực nghiệm là các nguồn tài nguyên học tập
được thu thập từ nhiều nguồn khác nhau. Ngồi ra, các kỹ thuật xử lý ngơn ngữ tự nhiên
cũng được sử dụng để tiền xử lý dữ liệu trước khi kiểm chứng mơ hình.
56
Hệ thống tổng quát của mơ hình phân loại tài nguyên học tập được trình bày trong
Hình 3.1. Cụ thể tài nguyên học tập ở đây là các bài báo (article) của các tập dữ liệu
khác nhau. Trong mơ hình này, khi một bài báo mới (định dạng .doc, .html,) gửi đến
hệ thống sẽ được phân loại thành một chủ đề dựa trên dữ liệu trước đĩ được huấn luyện
bởi các mơ hình học máy, học sâu.
Hình 3.1: Kiến trúc đề xuất để tiền xử lý và phân loại tài nguyên học tập
3.2.2. Tiền xử lý dữ liệu
Quá trình tiền xử lý dữ liệu được mơ tả như Giải thuật 3.1. Quá trình tiền xử lý
gồm nhiều cơng việc khác nhau.
Giải thuật 3.1: PreProccessing Data: InputDocument d 1 Convertion(d) // convert the input document (.doc/.pdf) to text 2 WordSegmention(d) // separate document to words 3 WordNormalization(d) // changed to lower cases, removing blanks 4 RemovingStopWords(d) // remove noise words 5 Vectorization(d) // convert documents to respectively vectors 6 Return sets of Vectorized-Documents D
Convertion(d): Chuyển đổi dữ liệu từ các định dạng khác nhau sang định dạng văn
bản thuần túy (.txt) để dễ dàng sử dụng trong hầu hết các giải thuật. Nhiều cơng cụ cĩ
thể được dùng để chuyển đổi định dạng dữ liệu, trong nghiên cứu này, cơng cụ Apache
POI được sử dụng vì nĩ phù hợp với các tập dữ liệu lớn.
WordSegmention(d): Đối với tiếng Việt, dấu cách (space) khơng cĩ nhiệm vụ tách
từ mà chỉ phân cách giữa các âm tiết. Chính vì vậy, giai đoạn tách từ cũng khá quan
trọng trong xử lý ngơn ngữ tự nhiên. Nghiên cứu này đã sử dụng cơng cụ tách từ
VnTokenizer dựa trên cách tiếp cận tổng hợp các phương pháp Maximum Matching,
WFST và regular expression parsing, với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt
và từ điển từ vựng tiếng Việt. Đây là cơng cụ tách từ tiếng Việt tự động, tách các văn
bản tiếng Việt thành các đơn vị từ vựng (từ ngữ, tên, số, ngày tháng và các biểu thức
chính quy khác) với độ chính xác hơn 95% (Nguyễn Thị Minh Huyền et al., 2010).
57
WordNormalization(d): Dữ liệu cần được chuẩn hĩa từ để chuyển tất cả ký tự của
văn bản thành chữ thường, xĩa các khoảng trống, trước khi thực hiện xĩa các từ khơng
cần thiết gây nhiễu.
RemovingStopWords(d): Từ dừng (stop words) là những từ khơng bổ sung nhiều
ý nghĩa cho một câu, khơng chứa thơng tin đáng giá để sử dụng và cĩ thể được bỏ qua
mà khơng làm mất đi ý nghĩa của câu. Stop words thường xuất hiện nhiều trong tất cả
các văn bản trong tập dữ liệu (Saif et al., 2014). Trong phân loại văn bản, sự xuất hiện
của stop words khơng những khơng giúp gì trong việc đánh giá phân loại mà cịn gây
nhiễu và giảm độ chính xác của quá trình phân loại (như các từ: thì, là, mà, và, hoặc,
bởi).
Vectorization(d): Cĩ một số mơ hình biểu diễn văn bản như mơ hình khơng gian
véc-tơ (vector space model) dựa trên phương pháp đánh trọng số của từ theo tần số, mơ
hình túi từ (bag of words model), mơ hình hĩa văn bản thành đồ thị (graph-based model).
Nghiên cứu đề cập phương pháp biểu diễn văn bản theo mơ hình khơng gian véc-tơ do
mơ hình này biểu diễn tương đối đơn giản và hiệu quả (Perone, 2013). Theo mơ hình
này, mỗi văn bản được biểu diễn thành một véc-tơ; mỗi thành phần của véc-tơ là một từ
riêng biệt trong tập văn bản và được gán một giá trị là trọng số của từ đĩ trong văn bản
đĩ.
Bài tốn biểu diễn văn bản theo mơ hình khơng gian véc-tơ như sau: Đầu vào là
một tập gồm cĩ j văn bản trong miền ứng dụng D, với D = {d1, d2, dj} và tập gồm m từ
trong mỗi văn bản T = {t1, t2, tm}; đầu ra lần lượt đánh trọng số cho từng từ trong mỗi
văn bản, từ đĩ xây dựng ma trận trọng số wij là trọng số của từ wj trong văn bản dj € D.
Cĩ nhiều giải pháp để đánh trọng số của từ ti trong văn bản dj, trong đĩ giải pháp tích
hợp tần số xuất hiện từ khĩa (TF - Term Frequency) và nghịch đảo tần số xuất hiện trong
các văn bản (IDF- Inverse Document Frequency) được sử dụng khá phổ biến.
TF dùng để ước lượng tần suất xuất hiện của một từ trong một văn bản nào đĩ.
Bên cạnh đĩ, mỗi văn bản đều cĩ độ dài, số lượng từ ngữ khác nhau vì thế số lần xuất
hiện của từ sẽ khác nhau. Do đĩ, để đánh trọng số của một từ người ta lấy số lần xuất
hiện của từ đĩ chia cho độ dài của văn bản (số từ của văn bản) như biểu thức 3.1: TF�ti, dj�= số lần từ ti xuất hiện trong văn bản djtổng số từ trong văn bản dj 3.1
Khi tính tần số TF của một từ thì tất cả các từ trong tập từ cĩ mức độ quan trọng
là như nhau. Tuy nhiên, nhiều nghiên cứu cho thấy khơng hẳn trong một tập dữ liệu tất
cả các từ đều quan trọng. Những từ thường khơng cĩ độ quan trọng cao là từ nối (nên,
nhưng, bên cạnh đĩ, vì, như vậy), từ chỉ định (kìa, đĩ, ấy, thế), giới từ (trên, trong,
ngồi, ở, tại). Chính những lý do trên mà ta cần giảm đi mức độ quan trọng của những
từ đĩ bằng cách tính IDF thơng qua biểu thức 3.2:
58
IDF(ti, D) = log tổng số văn bản trong tập mẫu Dsố văn bản cĩ chứa từ ti 3.2
TF*IDF là sự tích hợp giữa tần số xuất hiện từ khĩa TF và nghịch đảo tần số xuất
hiện trong các văn bản IDF. Phương pháp này khá phổ biến được dùng để tính giá trị
TF*IDF của một từ thơng qua mức độ quan trọng của từ này trong một văn bản, mà bản
thân văn bản đang xét nằm trong một tập hợp các văn bản. Những từ cĩ IF*IDF cao là
những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác.
Thơng qua phương pháp này, chúng ta cĩ thể lọc ra những từ phổ biến và giữ lại những
từ cĩ giá trị cao.
3.2.3. Mơ hình phân loại tài nguyên học tập
Mơ hình đề xuất được trình bày như Hình 3.1. Trong đĩ, các thuộc tính đầu vào
được chọn từ Bảng 3.1 và đầu ra (dự đốn) của mơ hình bao gồm các lớp phụ thuộc vào
tập dữ liệu đã chọn. Các thực nghiệm tìm kiếm siêu tham số được thực hiện trên các tập
dữ liệu. Bắt đầu từ một lớp ẩn, số lượng nơ-ron từ 2 lên 128 được tăng dần, mỗi lần tăng
theo bội số 2 (2n với n = 1..7). Khi cĩ được số nơ-ron tốt nhất, giả sử k, để kiểm tra
chúng ta bắt đầu tăng số lượng lớp ẩn từ 2 lên 5 với k nơ-ron cho mỗi lớp ẩn để quan sát
những thay đổi trong kết quả dự đốn.
Chẳng hạn đối với tập dữ liệu Scientific_Articles các tham số tìm được mơ tả như
kiến trúc mạng MLP ở Hình 3.2. Mạng nhận 3.431 thuộc tính của tập dữ liệu làm đầu
vào, theo sau là một lớp ẩn bao gồm 16 nơ-ron và đầu ra là 9 nơ-ron tương ứng với xác
suất dự đốn của 9 chủ đề phân loại. Tương tự, các siêu tham số trên các tập dữ liệu
khác cũng được tìm kiếm. Sau khi chọn siêu tham số từ các thực nghiệm, chúng tơi giữ
lại số nơ-ron và số lớp ẩn để dự đốn trên 5 tập dữ liệu, số lượng nơ-ron của lớp input
và lớp output cĩ thể thay đổi tùy thuộc vào tập dữ liệu.
Hình 3.2: Kiến trúc MLP được đề xuất thơng qua các thử nghiệm với các thơng số
khác nhau trên tập dữ liệu Scientific_Articles
Mơ hình MLP phân lớp (hay phân loại) nhị phân sử dụng hàm kích hoạt sigmoid
để thực hiện dự đốn. Đối với các bài tốn phân đa lớp, hàm Softmax với k lớp được sử
dụng. Hàm này làm nhiệm vụ chuẩn hĩa một giá trị đầu vào thành một véc-tơ, các giá
trị tuân theo phân phối xác suất cĩ tổng bằng 1. Hàm kích hoạt ReLU cũng được thực
hiện trong kiến trúc MLP.
59
3.3. Mơ tả tập dữ liệu và độ đo đánh giá mơ hình
Như mơ tả ở Bảng 3.1, nguồn tài nguyên học tập sử dụng cho nghiên cứu này là 5
tập dữ liệu thực nghiệm với ba ngơn ngữ khác nhau (tiếng Anh, tiếng Thổ Nhĩ Kỳ và
tiếng Việt).
Bảng 3.1: Các tập dữ liệu thực nghiệm
Data set #Instances #Attributes #Classes Language
Reuters_Newswire 2.158 1.503 2 English
School_Text_Books 1.786 2.566 4 English
Turkish_News_Articles 3.600 5.693 6 Turkish
Scientific_Articles 650 3.431 9 Vietnamese
VnExpress_Newsletters 10.000 3.266 10 Vietnamese
Với 5 tập dữ liệu trên, số lớp xem xét cũng thay đổi từ 2 phân đến 10 lớp. Tập dữ
liệu thứ nhất là các bài báo tin tức tài chính Reuters_Newswire (Weiss, 2019) sử dụng
cho phân loại nhị phân. Tập dữ liệu thứ hai là nguồn học liệu mở của bộ sách giáo khoa
lớp 11 và lớp 12 School_Text_Books (Deepak, 2020) của Kaggle với 4 lớp chủ đề. Tập
dữ liệu thứ ba là tin tức và bài báo của một cổng thơng tin nổi tiếng ở Thổ Nhĩ Kỳ
Turkish_News_Articles (Deniz, 2017). Tập dữ liệu thứ tư là các bài báo khoa học được
xuất bản trên Tạp chí khoa học Trường Đại học Cần Thơ Scientific_Articles với 9 chủ
đề. Tập dữ liệu thứ năm là các bài báo dạng tin tức thuộc báo điện tử
VnExpress_Newsletters (Vnexpress, 2020) với 10 chủ đề được sử dụng cho nghiên cứu
này.
Để đánh giá mơ hình, độ đo AUC với cross-validation là 3-fold được sử dụng; các
fold giống nhau đối với các tập huấn luyện và tập kiểm tra. AUC là một phương pháp
tính tốn hiệu suất của một mơ hình phân loại, giá trị này là một số dương nhỏ hơn hoặc
bằng 1. Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp.
Lý do AUC được sử dụng vì đây là độ đo đáng tin cậy để đánh giá các bộ phân loại đối
với dữ liệu mất cân bằng. Một số tập dữ liệu thực nghiệm trong nghiên cứu này mất cân
bằng do số lượng mẫu của một số lớp lớn hơn khá nhiều so với các lớp khác. Chẳng
hạn, một lớp của tập dữ liệu Reuters_Newswire chiếm tới 97% trong khi các lớp cịn lại
chỉ chiếm 3%. Ngồi ra, AUC được sử dụng rộng rãi trong nhiều nghiên cứu để kiểm
tra việc thực hiện các dự đốn, vì vậy được xem là thước đo khá tin cậy để đánh giá hiệu
quả dự đốn các lớp.
3.4. Cài đặt các siêu tham số và mơi trường thực nghiệm
Để chọn các tham số thích hợp cho các mơ hình MLP, các cấu hình khác nhau của
kiến trúc MLP được chạy thử nghiệm. Hình 3.3 mơ tả hiệu suất của các cấu hình khác
nhau của MLP trên một tập dữ liệu được lấy làm mẫu là Scientific_Articles. Kết quả
cho thấy hiệu suất tăng lên theo độ lớn của mạng MLP. Tuy nhiên, hiệu suất đạt đến
đỉnh và thay đổi tùy thuộc vào số lượng lớp ẩn được sử dụng. Sau khi đạt đến đỉnh, hiệu
60
suất cĩ xu hướng giảm dần khi tiếp tục tăng số nơ-ron. Hình 3.3 mơ tả hiệu suất AUC
theo số nơ-ron của từng lớp ẩn. Thực nghiệm cho thấy, với một lớp ẩn và số nơ-ron bằng
16 thì AUC bằng 0,977 đạt kết quả tốt n

File đính kèm:

luan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
5-ThongtinLuanan_EN_TranThanhDien.docx
4-ThongtinLuanan_VN_TranThanhDien.docx
3-TomtatLuanan_EN_TranThanhDien.pdf
2-TomtatLuanan_VN_TranThanhDien.pdf