Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 1

Trang 1

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 2

Trang 2

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 3

Trang 3

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 4

Trang 4

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 5

Trang 5

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 6

Trang 6

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 7

Trang 7

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 8

Trang 8

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 9

Trang 9

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 125 trang Hà Tiên 27/02/2024 1090
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D

Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D
2 vị trí cần so sánh. Kết 
quả thử nghiệm được tóm tắt như trong Bảng 2.2. 
Bảng 2.2 So sánh kết quả định vị khuôn mặt 
 Haar Adaboost PP đề xuất 
Số mẫu không phát hiện được 7/450 27/450 
Số mẫu phát hiện nhầm 16 7 
46 
Thời gian xử lý trung bình ảnh (giây/ảnh) 0,109713 0,018982 
Trong 450 ảnh đó, thuật toán phát hiện được 423 ảnh có khuôn mặt người. Bằng 
việc kiểm tra thủ công 423 ảnh được rút ra, nghiên cứu sinh phát hiện có 7 ảnh không 
có khuôn mặt người; tức là thuật toán phát hiện đúng 416 ảnh trong 423 ảnh đó. 
Khả năng phát hiện của thuật toán như sau: 
Precision = 416 / 423 = 0,9834 (hay đạt 98,34%); 
Recall = 416 / 450 = 0,9244 (hay đạt 92,44%). 
Như vậy, kết quả 92,44% cho thấy phương pháp được đề xuất cho độ chính xác 
phát hiện khuôn mặt khá tốt. Mặc dù thuật toán Haar Adaboost đạt giá trị recall 
94,89% tốt hơn so với 92,44% của phương pháp đề xuất trong Luận án nhưng bù lại 
thì nó có tốc độ xử lý nhanh hơn, đây là cơ sở để có thể phát triển những ứng dụng 
xử lý khuôn mặt yêu cầu thời gian thực trên dữ liệu video. 
2.2 Bài toán trích chọn đặc trưng cử chỉ 
Các cử chỉ trên khuôn mặt (hoạt động của cơ mặt) điều chỉnh tương tác xã hội: 
chúng đại diện cho các tín hiệu giọng nói có thể nhìn thấy và chúng chỉ ra trọng tâm 
chú ý hiện tại của chúng ta (ví dụ: một người hoặc những gì đã được nói) là quan 
trọng, hài hước hay khó chịu đối với chúng ta. Chúng là phương tiện trực tiếp, tự 
nhiên ưu việt để con người truyền đạt cảm xúc của mình [80]. Do đó, các phân tích 
tự động về những thay đổi tinh tế trên khuôn mặt dường như có một vị trí quan trọng 
trong các hệ thống thị giác khác nhau bao gồm các công cụ tự động để nghiên cứu 
tâm lý, đọc môi, phân tích giọng nói hai phương thức, tính toán cảm xúc, tổng hợp 
khuôn mặt, giọng nói trực quan và giao diện người dùng tri giác. Do đó, trong những 
năm gần đây, việc tự động hóa phân tích cử chỉ trên khuôn mặt đã được quan tâm rất 
nhiều. 
Hầu hết các phương pháp phân tích cử chỉ khuôn mặt tự động trong chuỗi hình 
ảnh khuôn mặt đều cố gắng nhận ra một tập hợp các biểu hiện cảm xúc nguyên mẫu 
trên khuôn mặt, tức là hạnh phúc, buồn bã, sợ hãi, ngạc nhiên, tức giận và ghê tởm 
[89]. Tuy nhiên, trong cuộc sống hàng ngày, những biểu hiện nguyên mẫu như vậy 
xảy ra không thường xuyên; cảm xúc được thể hiện thường xuyên hơn bằng những 
thay đổi tinh tế ở một hoặc vài đặc điểm riêng biệt trên khuôn mặt, chẳng hạn như 
nhướng mày ngạc nhiên [80]. Để phát hiện sự tinh tế như vậy của cảm xúc con người, 
47 
cần phải tự động nhận dạng các cử chỉ trên khuôn mặt (tức là những thay đổi chi tiết 
trong biểu hiện trên khuôn mặt). 
Từ một số phương pháp nhận dạng cử chỉ khuôn mặt dựa trên hoạt động cơ mặt 
có thể quan sát được bằng mắt thường, hệ thống FACS được sử dụng phổ biến nhất 
trong nghiên cứu tâm lý. Theo xu hướng này, tất cả các phương pháp hiện có để phân 
tích cử chỉ khuôn mặt tự động, bao gồm cả phương pháp được đề xuất ở đây, diễn 
giải thông tin hiển thị trên khuôn mặt dưới dạng đơn vị hành động trên khuôn mặt 
(AU) của hệ thống FACS [89] [43]. 
Tuy nhiên, không có hệ thống tự động nào có khả năng mã hóa toàn bộ phạm 
vi bắt chước khuôn mặt, tức là không có hệ thống nào có khả năng nhận ra tất cả 44 
AU tạo ra những thay đổi trong hiển thị trên khuôn mặt. Từ các công trình trước đây 
về nhận dạng cử chỉ khuôn mặt tự động từ chuỗi hình ảnh khuôn mặt, phương pháp 
được trình bày trong nghiên cứu của Pentland hoạt động tốt nhất ở khía cạnh này: nó 
mã hóa 16 AU xảy ra một mình hoặc kết hợp trong chuỗi hình ảnh khuôn mặt xem 
trực diện. 
Tuy nhiên, ngay cả khi một hệ thống nhận dạng các hoạt động cơ mặt có thể 
xảy ra, việc giải thích cảm xúc của các dấu hiệu trên khuôn mặt sẽ không phải là một 
nhiệm vụ tầm thường. Mục tiêu này thực hiện khó khăn bởi các sắc thái phong phú 
của trạng thái tình cảm / suy nghĩ mà con người nhận ra trong một biểu hiện trên 
khuôn mặt. Một yếu tố khó khăn chính khác là một cử chỉ khuôn mặt thể hiện có thể 
dễ bị hiểu sai nếu không tính đến sự hiện diện của dữ liệu giọng nói trực quan. Ví dụ, 
người nói có thể cau mày để nhấn mạnh mức độ khó của vấn đề đang được thảo luận 
và người nghe có thể biểu thị rằng anh ta không hiểu vấn đề đang được đề cập. Tuy 
nhiên, cho đến nay, các hệ thống phân tích thông tin khuôn mặt tự động thường không 
thực hiện việc giải thích dữ liệu cảm nhận do người dùng lập và hầu như tất cả các 
phương pháp phân tích cử chỉ khuôn mặt tránh được việc giải quyết các câu hỏi liên 
quan đến việc đối tượng được quan sát có đang nói hay không. Sau đó rất dễ thực 
hiện nếu người ta có thể giới hạn ngữ cảnh. Ví dụ, nếu bạn biết rằng ngoại trừ đối 
tượng được quan sát không có người nào khác trong khu vực, thì việc mím môi có 
thể biểu thị một dấu hiệu trên khuôn mặt đang buồn chán hoặc đang suy nghĩ chứ 
không phải là tín hiệu giọng nói dễ thấy. Tuy nhiên, khi nghiên cứu hướng tới việc 
tạo điều kiện tổng quát hơn cho các hội nghị truyền hình, truy cập ảo vào các trang 
web Internet, v.v., các tác giả sẽ phải đối mặt trực tiếp với vấn đề phân biệt các cử 
48 
chỉ khuôn mặt đặc trưng cho việc phát âm giọng nói với những thái độ hoặc ảnh 
hưởng của tín hiệu. Do đó, một hệ thống nhận dạng về việc đối tượng được quan sát 
có đang nói hay không và kiến thức về cử chỉ khuôn mặt tạo thành tín hiệu giọng nói 
đều cần thiết cho một diễn giải cảm xúc của các dấu hiệu trên khuôn mặt. 
Trích chọn đặc trưng là một phần quan trọng để nhận dạng đối tượng và các đối 
tượng có đặc điểm rõ ràng, cố định có thể được phân loại dễ dàng. Do vậy, việc xử 
lý hình ảnh để cải thiện độ rõ nét của các đối tượng trong hình ảnh là việc làm quan 
trọng trước khi thực hiện việc trích chọn các đặc trưng mong muốn. Nhìn chung, việc 
trích chọn đặc trưng cử chỉ của khuôn mặt thường được thực hiện theo quy trình sau: 
2.2.1 Loại bỏ nhiễu hình ảnh 
Các hình ảnh đều chứa nhiễu ở một mức độ nào đó, làm giảm chất lượng hình 
ảnh và độ nét của cạnh và các đặc trưng của ảnh. Tuy nhiên, có thể giảm nhiễu xuống 
đến một giới hạn có thể chấp nhận được trước khi tiến hành phân tích sâu hơn trên 
ảnh. Có nhiều phương pháp loại bỏ nhiễu, ví dụ: tính trung bình hình ảnh, Bộ lọc 
trung vị, Bộ lọc sigma, Bộ lọc Wiener, FFT và Biến đổi Wavelet, v.v... Cụ thể như 
sau: 
a) Trung bình hình ảnh và Bộ lọc trung vị 
Tính trung bình ảnh là cách đơn giản và nhanh chóng để loại bỏ nhiễu và được 
sử dụng rộng rãi trong xử lý ảnh kỹ thuật số. Trong thuật toán này, giá trị của mỗi 
pixel đầu ra được xác định từ việc lấy trung bình giá trị pixel của các vùng lân cận 
của nó. Còn Bộ lọc trung vị sử dụng một thuật toán tương tự, trong đó giá trị của mỗi 
pixel đầu ra được xác định từ giá trị pixel trung bình của các vùng lân cận của nó. 
Tuy nhiên, cả hai kỹ thuật này đều dẫn đến việc làm mịn hình ảnh, điều này có nhược 
điểm là nó cũng làm mờ hình ảnh và làm giảm thông tin cạnh, như đã mô tả ở trên, 
rất quan trọng để phát hiện các đặc trưng. 
b) Bộ lọc Sigma 
Lee [69] đã thiết kế Bộ lọc Sigma để khắc phục các vấn đề của Bộ lọc trung vị 
và trung bình. Ý tưởng của Bộ lọc Sigma chỉ bao gồm trung bình các giá trị màu xám 
trong một cửa sổ khác với giá trị màu xám của pixel trung tâm không quá một tham 
số cố định - được gọi là giá trị “Sigma”. Bộ lọc này có ưu điểm là làm mịn hình ảnh, 
không có bất kỳ hiện tượng nhòe hay suy giảm cạnh đáng kể nào. Nó cũng có một lợi 
thế nữa là tốc độ xử lý rất nhanh. Vì vậy, Bộ lọc Sigma được coi là thích hợp nhất để 
49 
sử dụng trong nghiên cứu này. 
c) Bộ lọc Wiener 
Một cách tiếp cận cổ điển để lọc nhiễu là Bộ lọc Wiener [120] [21]. Bộ lọc 
Wiener sử dụng phương pháp thích ứng theo pixel dựa trên thông tin thu thập từ vùng 
lân cận cục bộ xung quanh mỗi pixel. Nó sử dụng thông tin này để ước tính giá trị 
trung bình cục bộ và phương sai xung quanh mỗi pixel. Tuy nhiên, một vấn đề với 
phương pháp này là nó tương đối thành công đối với hình ảnh có nhiều nhiễu, nhưng 
không hoạt động tốt đối với hình ảnh ít nhiễu. Ngoài ra, nó cũng giới thiệu một số 
điểm làm mờ và phức tạp về mặt tính toán nên nó không thể được sử dụng trong các 
ứng dụng thời gian thực. 
d) FFT và Biến đổi Wavelet 
Phân tích FFT là một công nghệ rất quan trọng trong xử lý tín hiệu và xử lý hình 
ảnh và hoạt động bằng cách tách một hình ảnh thành các miền tần số không gian khác 
nhau của nó. Bằng cách tách thành tần số cao và tần số thấp, nhiễu được loại bỏ dễ 
dàng. Một thuật toán được phát triển bởi Kovesi cung cấp một ví dụ điển hình về việc 
loại bỏ nhiễu ảnh bằng cách sử dụng Bộ lọc FFT. Thuật toán này đã được sử dụng 
trong nghiên cứu này để chiết xuất các đặc điểm trên khuôn mặt. Một quá trình tương 
tự được gọi là biến đổi wavelet [11]. 
2.2.2 Làm mịn bảo toàn cạnh của khuôn mặt 
Như đã thảo luận ở trên, lọc trung bình và lọc trung vị sẽ làm mờ hình ảnh và 
làm giảm thông tin về cạnh và rất khó để tìm ra giá trị sigma tối ưu để sử dụng trong 
lọc Sigma. Các nhà khoa học đã cố gắng tạo ra một thuật toán có thể làm mịn hình 
ảnh mà không bị nhòe hoặc suy giảm cạnh. Cách tiếp cận của họ là xuất ra giá trị của 
từng pixel riêng lẻ bằng cách sử dụng các phép tính dựa trên các pixel xung quanh. 
Phương pháp này đã được cải tiến, đầu tiên là bởi [86] và Tomita [108], những người 
đã đề xuất sử dụng một số mặt nạ hình chữ nhật có chứa một số pixel tập hợp làm cơ 
sở cho các tính toán. Mức xám trung bình của mặt nạ đồng nhất sẽ được gán cho mỗi 
pixel làm giá trị đầu ra. Điều này đồng nghĩa với việc hình ảnh mịn, giảm nhiễu nhưng 
hình ảnh không bị nhòe hay viền giảm chất lượng đáng kể. Thuật toán này đã được 
sử dụng trong nghiên cứu này để hỗ trợ việc tạo ra các đường biểu diễn để thể hiện 
các đặc điểm trên khuôn mặt. Nhìn chung, các thuật toán khác nhau được mô tả ở 
trên có các ứng dụng khác nhau và mỗi thuật toán đều có ưu điểm và nhược điểm. 
50 
Đối với hình ảnh kích thước lớn, lọc trung bình và lọc trung vị là một kỹ thuật hiệu 
quả. FFT và biến đổi wavelet là một thuật toán tốt để tăng cường các tính năng cạnh 
đặc biệt, trong khi Bộ lọc Sigma phổ biến trong xử lý ảnh. 
2.2.3 Hiệu chỉnh ánh sáng và cải thiện đặc trưng khuôn mặt 
Như đã đề cập ở trên, sự khác biệt về màu da và điều kiện ánh sáng có thể khiến 
việc phân tích biểu hiện trên khuôn mặt trở nên khó khăn hơn. Những người da sẫm 
màu trông sáng hơn trong môi trường ánh sáng rực rỡ, trong khi những người da sáng 
hơn trông tối hơn trong môi trường ánh sáng kém. Những vấn đề này không thể được 
khắc phục bằng cách chỉ sử dụng các kỹ thuật liên quan đến phân tích không gian 
màu RGB hoặc HSV. Vì vậy, [121] để làm cho các đặc trưng rõ ràng hơn để trích 
chọn bất kể điều kiện ánh sáng và màu da, người ta đã quyết định rằng nên sử dụng 
hình ảnh mức xám thay vì hình ảnh màu. Là một phần của nghiên cứu này, các thuật 
toán nâng cao tính năng hiện có đã được xem xét và được tóm tắt trong các đoạn sau. 
a) Điều chỉnh gamma hình ảnh 
Kỹ thuật này nâng cao hình ảnh bằng cách điều chỉnh giá trị gamma theo cách 
đơn giản - kỹ thuật tương tự có sẵn trong nhiều phần mềm xử lý hình ảnh hiện nay. 
Việc điều chỉnh gamma thay đổi mối quan hệ giữa màu đen và trắng. Giá trị mặc định 
cho gamma là 1, có nghĩa là tuyến tính giữa màu đen và trắng. Nếu gamma nhỏ hơn 
1, ánh xạ có trọng số đối với giá trị đầu ra cao hơn (màu trắng) và nếu gamma lớn 
hơn 1, ánh xạ có trọng số đối với giá trị đầu ra thấp hơn [69]. Điều này có nghĩa là 
điều chỉnh gamma là một cách hiệu quả để điều chỉnh độ sáng. Cả Martinkauppi [81] 
và Sterring [103] đều chỉ ra rằng hiệu chỉnh gamma có thể được áp dụng để điều 
chỉnh biểu đồ hình ảnh giúp cải thiện các đặc điểm trên khuôn mặt. Tuy nhiên, nhược 
điểm đáng kể của quá trình này là việc điều chỉnh gamma cần thiết để tối ưu hóa hình 
ảnh giữa các ảnh khác nhau là khác nhau. Do vậy, nghiên cứu này không sử dụng 
phương pháp điều chỉnh Gamma hình ảnh. 
b) Biểu đồ cân bằng 
Biểu đồ cân bằng là thuật ngữ mô tả quá trình mà một thuật toán tính trung bình 
biểu đồ của một hình ảnh. Thuật toán này có thể điều chỉnh biểu đồ theo nhiều cách 
khác nhau. Ví dụ, cũng như tính trung bình, độ tương phản của hình ảnh có thể được 
tăng cường bằng cách kéo giãn biểu đồ hoặc nó có thể được điều chỉnh để gần như 
khớp với một biểu đồ cụ thể. 
51 
Biểu đồ cung cấp thông tin về độ phơi sáng của hình ảnh. Nếu biểu đồ chỉ ra 
rằng có một số lượng lớn các điểm ảnh tối thì hình ảnh có thể bị thiếu sáng. Nếu có 
quá nhiều các điểm ảnh sáng thì có lẽ nó đã bị phơi sáng quá mức. Trong thuật toán 
nhận diện khuôn mặt của Rowley [96], một thuật toán hiệu chỉnh ánh sáng được áp 
dụng, sau đó cân bằng biểu đồ được áp dụng để nâng cao các đặc điểm khuôn mặt. 
c) Tăng cường bằng phép toán logic Morph 
 Phép toán logic Morph được thiết kế để phân biệt các đối tượng ở tiền cảnh với 
hậu cảnh, bằng cách đo lường sự khác biệt về độ phơi sáng và độ tương phản trên 
hình ảnh. Thuật toán này xem xét giá trị pixel hiện tại và khu vực xung quanh của nó 
(được gọi là phần tử cấu trúc). Tương tự như kỹ thuật điều chỉnh gamma, kỹ thuật 
này chỉ phù hợp với từng hình ảnh riêng lẻ. 
d) Cân bằng biểu đồ thích ứng có giới hạn tương phản (CLAHE) 
Thay vì nâng cao các tính năng theo biểu đồ của toàn bộ hình ảnh, Pizer [91] 
đã giới thiệu Contrast-limited adaptive histogram equalization (CLAHE) nhằm nâng 
cao các đặc trưng trong hình ảnh dựa trên các vùng nhỏ hơn. Điều này đã được cải 
thiện hơn bởi Zuiderveld [135]. CLAHE là một thuật toán tương tự với thuật toán cân 
bằng biểu đồ, nhưng nó cung cấp các tính năng nâng cao tốt hơn. Ý tưởng cơ bản là 
chia hình ảnh gốc thành nhiều ô hoặc nhiều vùng. Thay vì tính toán biểu đồ chung 
của toàn bộ hình ảnh, CLAHE chỉ tính toán biểu đồ cho từng khu vực. Nó cho độ 
tương phản tốt hơn và kết quả chính xác hơn bằng cách nâng cao độ tương phản của 
ảnh là ước tính nền ảnh và trừ ảnh khỏi ảnh nền. 
2.2.4 Trích chọn đặc trưng cử chỉ của khuôn mặt 
Một số nghiên cứu đã được hoàn thành về nhận dạng nét mặt dựa trên video để 
kiểm tra hiệu suất của các kỹ thuật khác nhau được sử dụng trong bối cảnh này cho 
các cơ sở dữ liệu khác nhau. Chew [26] trình bày hệ thống FER dựa trên phương pháp 
CLM (mô hình cục bộ bị ràng buộc) và trích xuất tính năng LBP bằng cách sử dụng 
bộ dữ liệu GEMEP-FERA. Họ kết luận rằng LBP có độ chính xác thấp hơn khi điều 
kiện chiếu sáng được cố định. Bên cạnh đó, Baltrusaitis [15] đề xuất một hệ thống 
phát hiện các đặc trưng cử chỉ trên khuôn mặt. Mục đích thứ hai nhằm xác định tỷ lệ 
phân loại trung bình cho các trạng thái cảm xúc khác nhau bằng cách sử dụng điểm, 
bộ lọc Gabor và bộ phân loại SVM (Support Vectors Machine). Ngoài ra, việc sử 
dụng thuật toán LBP để trích xuất đặc trưng và SVM cho bước phân loại là khá khó 
52 
khăn. Điều này cũng đã được khẳng định bởi Ghimire [44], trong đó dùng phương 
pháp nhận dạng nét mặt bằng thuật toán Adaboost, các nét mặt được nhận dạng bằng 
ELM sau đó hỗ trợ máy vectơ SVM phân loại. 
Valstar [112] đề xuất sự kết hợp của hai loại mô tả để giải quyết những thách 
thức của nhận dạng cảm xúc khuôn mặt: Mô hình nhị phân Gabor cục bộ (LGBP) và 
Mô hình ngoại hình chủ động (AAM) tự động phát hiện chuyển động trên khuôn mặt. 
Theo thử nghiệm của họ, sự kết hợp của biểu đồ AAM và LGBP làm tăng độ chính 
xác của phân loại. Các nghiên cứu khác đã tập trung vào các vấn đề tương tự [122]. 
Chính vì vậy mà trong nghiên cứu này, nghiên cứu sinh kế thừa Mô hình AAM cải 
tiến này và bổ sung thuật toán định vị các điểm điều khiển. Cụ thể như sau: 
AAM là một thuật toán trong lĩnh vực thị giác máy nhằm mục tiêu tối ưu một 
mô hình thống kê hình ảnh thể hiện của đối tượng vào một ảnh đầu vào mới, kết quả 
của quá trình tối ưu là một bộ điểm điều khiển thể hiện cấu trúc của đối tượng đã 
được học với các tọa độ tương ứng với thể hiện trong ảnh đầu vào của đối tượng cùng 
với nó là một bộ các tham số mô hình thống kê đã được ước lượng mà từ những tham 
số mô hình này, ta có thể dễ dàng tái cấu trúc cả về hình dạng cũng như kết cấu hình 
ảnh của đối tượng tương ứng một cách tương đối với thể hiện của đối tượng ở trong 
ảnh thử nghiệm. 
Mô hình thuật toán được đề xuất bởi Cootes [59]. Cách tiếp cận này trở thành 
một chủ đề rất được thu hút đối với các nhà nghiên cứu thị giác máy cũng như các 
nhà phát triển phần mềm bởi vì nền tảng lý thuyết chắc chắn của thuật toán, sự mềm 
dẻo và tính linh động trong việc thiết kế và chỉnh sửa thuật toán theo những yêu cầu 
cụ thể cũng như vì khả năng ứng dụng thực tế đầy hứa hẹn trong những hệ thống phần 
mềm rất thiết có thể hình dung được rõ ràng trong thực tế cuộc sống. Và thực sự, 
hướng tiếp cận này đã được sử dụng rộng rãi trong việc lĩnh vực xử lý ảnh y tế và 
trong các hướng nghiên cứu về so khớp và giám sát khuôn mặt. 
Trong AAM, đối tượng quan tâm được mô hình hóa bởi một tập điểm mô tả 
hình dạng và kết cấu hình ảnh của nó, kết cấu hình ảnh được lấy chính là mẫu của 
những giá trị cường độ ảnh trong những vùng được giới hạn bởi tập điểm điều khiển. 
Mô hình thống kê của đối tượng đảm bảo có thể mô tả được những biến thể về hình 
dạng và những biến thể về kết cấu hình ảnh cũng như mối tương quan giữa chúng. 
Các vấn đề nổi bật được quan tâm trong phương pháp này là việc xây dựng mô hình 
thống kê cho đối tượng ảnh và việc thiết kế thuật toán tối ưu để thực hiện tìm kiếm. 
53 
Ở đây, việc xây dựng mô hình thống kê toán học cho đối tượng bao gồm việc xây 
dựng mô hình thống kê toán học cho hình dạng, mô hình mô hình thống kê toán học 
cho kết cấu hình ảnh và việc kết hợp hai mô hình đó để ra được mô hình cho đối 
tượng. Module trích rút đặc trưng được mô tả trong tài liệu này bao gồm hai bước là 
phát hiện khuôn mặt và định vị tập điểm điều khiển. Mô hình chi tiết về module được 
thể hiện: 
Hình 2.3 Sơ đồ module hệ thống 
Module được thiết kế trên cơ bản dựa vào tiếp cận giám sát. Việc sử dụng hay 
không thao tác phát hiện khuôn mặt là dựa trên cờ trạng thái có thực hiện phát hiện 
khuôn mặt hay không. Cờ trạng thái này khi khởi tạo hệ thống được đặt là true. Nếu 
phát hiện được khuôn mặt hợp lệ cờ trạng thái sẽ được đặt ra là false; cờ trạng thái 
này sẽ được đặt lại là true nếu ở bước sau kiểm tra hình dạng kết quả không hợp lệ. 
Ở các lượt sử dụng tiếp theo vị trí khuôn mặt sẽ được lấy trực tiếp từ vị trí cũ kết hợp 
với một vài thao tác ước lượng đơn giản dựa trên vận tốc chuyển động của khuôn mặt 
trên khung hình. Sau khi đã xác định được vị trí của khuôn mặt trong khung hình, hệ 
thống sẽ tiếp tục tính toán vùng ảnh sẽ sử dụng để giới hạn dữ liệu tìm kiếm tập điểm 
điều khiển thể hiện hình dạng của khuôn mặt. Vùng ảnh này sẽ được chuẩn hóa và 
tăng cường chất lượng cho kết cấu hình ảnh của vùng ảnh. Đây chính là bước chuẩn 
bị dữ liệu thuật toán AAM được sử dụng để định vị đối tượng hình dạng của khuôn 
mặt trong khung hình. Sau bước AAM, hệ thống tiến hành kiểm tra lại đối tượng hình 
dạng đã tính được để một bước nữa kiểm tra sự hợp lệ. Nếu thỏa mãn, đối tượng hình 
dạng được trả ra làm kết quả module, nếu không thỏa mãn, hệ thống kiểm tra tiếp 
xem vị trí khuôn mặt được dùng là kết quả từ tác vụ giám sát khuôn mặt; nếu trong 
tình huống thứ hai, hệ thống sẽ quay lại bước phát hiện khuôn mặt, nếu không thì 
54 
thông báo không trích rút được đặc trưng hình dạng khuôn mặt. 
a. Mô hình hình dạng 
Mô hình thống kê toán học của hình dạng ở đây được dùng để mô tả hình dạng 
của đối tượng trong ảnh. Mô hình được biểu diễn bởi một tập hợp có thứ tự các điểm 
điều khiển, thông thường là các điểm 2 chiều hoặc 3 chiều. Mô hình hình dạng mà 
các tác giả xây dựng cần thiết để có thể thể hiện được các biến thể của đối tượng ảnh 
về mặt trong những điều kiện thu nhận khác nhau, nói cách khác, mô hình này cần có 
đặc điểm là bất biến với các phép biến đổi hình học. Trong công trình đã đề xuất, 
nghiên cứu sinh đã sử dụng phép biến đổi tương đương bao gồm phép dịch chuy

File đính kèm:

  • pdfluan_an_phat_trien_cac_ky_thuat_bieu_dien_bieu_cam_khuon_mat.pdf
  • pdfLA_Huỳnh Cao Tuấn_Trang TT_E.pdf
  • pdfLA_Huỳnh Cao Tuấn_Trang TT_V.pdf
  • pdfLA_Huỳnh Cao Tuấn_TT.pdf
  • pdfQĐ_ Huỳnh Cao Tuấn.pdf