Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phát triển các kỹ thuật biểu diễn biểu cảm khuôn mặt 3D

2 vị trí cần so sánh. Kết quả thử nghiệm được tóm tắt như trong Bảng 2.2. Bảng 2.2 So sánh kết quả định vị khuôn mặt Haar Adaboost PP đề xuất Số mẫu không phát hiện được 7/450 27/450 Số mẫu phát hiện nhầm 16 7 46 Thời gian xử lý trung bình ảnh (giây/ảnh) 0,109713 0,018982 Trong 450 ảnh đó, thuật toán phát hiện được 423 ảnh có khuôn mặt người. Bằng việc kiểm tra thủ công 423 ảnh được rút ra, nghiên cứu sinh phát hiện có 7 ảnh không có khuôn mặt người; tức là thuật toán phát hiện đúng 416 ảnh trong 423 ảnh đó. Khả năng phát hiện của thuật toán như sau: Precision = 416 / 423 = 0,9834 (hay đạt 98,34%); Recall = 416 / 450 = 0,9244 (hay đạt 92,44%). Như vậy, kết quả 92,44% cho thấy phương pháp được đề xuất cho độ chính xác phát hiện khuôn mặt khá tốt. Mặc dù thuật toán Haar Adaboost đạt giá trị recall 94,89% tốt hơn so với 92,44% của phương pháp đề xuất trong Luận án nhưng bù lại thì nó có tốc độ xử lý nhanh hơn, đây là cơ sở để có thể phát triển những ứng dụng xử lý khuôn mặt yêu cầu thời gian thực trên dữ liệu video. 2.2 Bài toán trích chọn đặc trưng cử chỉ Các cử chỉ trên khuôn mặt (hoạt động của cơ mặt) điều chỉnh tương tác xã hội: chúng đại diện cho các tín hiệu giọng nói có thể nhìn thấy và chúng chỉ ra trọng tâm chú ý hiện tại của chúng ta (ví dụ: một người hoặc những gì đã được nói) là quan trọng, hài hước hay khó chịu đối với chúng ta. Chúng là phương tiện trực tiếp, tự nhiên ưu việt để con người truyền đạt cảm xúc của mình [80]. Do đó, các phân tích tự động về những thay đổi tinh tế trên khuôn mặt dường như có một vị trí quan trọng trong các hệ thống thị giác khác nhau bao gồm các công cụ tự động để nghiên cứu tâm lý, đọc môi, phân tích giọng nói hai phương thức, tính toán cảm xúc, tổng hợp khuôn mặt, giọng nói trực quan và giao diện người dùng tri giác. Do đó, trong những năm gần đây, việc tự động hóa phân tích cử chỉ trên khuôn mặt đã được quan tâm rất nhiều. Hầu hết các phương pháp phân tích cử chỉ khuôn mặt tự động trong chuỗi hình ảnh khuôn mặt đều cố gắng nhận ra một tập hợp các biểu hiện cảm xúc nguyên mẫu trên khuôn mặt, tức là hạnh phúc, buồn bã, sợ hãi, ngạc nhiên, tức giận và ghê tởm [89]. Tuy nhiên, trong cuộc sống hàng ngày, những biểu hiện nguyên mẫu như vậy xảy ra không thường xuyên; cảm xúc được thể hiện thường xuyên hơn bằng những thay đổi tinh tế ở một hoặc vài đặc điểm riêng biệt trên khuôn mặt, chẳng hạn như nhướng mày ngạc nhiên [80]. Để phát hiện sự tinh tế như vậy của cảm xúc con người, 47 cần phải tự động nhận dạng các cử chỉ trên khuôn mặt (tức là những thay đổi chi tiết trong biểu hiện trên khuôn mặt). Từ một số phương pháp nhận dạng cử chỉ khuôn mặt dựa trên hoạt động cơ mặt có thể quan sát được bằng mắt thường, hệ thống FACS được sử dụng phổ biến nhất trong nghiên cứu tâm lý. Theo xu hướng này, tất cả các phương pháp hiện có để phân tích cử chỉ khuôn mặt tự động, bao gồm cả phương pháp được đề xuất ở đây, diễn giải thông tin hiển thị trên khuôn mặt dưới dạng đơn vị hành động trên khuôn mặt (AU) của hệ thống FACS [89] [43]. Tuy nhiên, không có hệ thống tự động nào có khả năng mã hóa toàn bộ phạm vi bắt chước khuôn mặt, tức là không có hệ thống nào có khả năng nhận ra tất cả 44 AU tạo ra những thay đổi trong hiển thị trên khuôn mặt. Từ các công trình trước đây về nhận dạng cử chỉ khuôn mặt tự động từ chuỗi hình ảnh khuôn mặt, phương pháp được trình bày trong nghiên cứu của Pentland hoạt động tốt nhất ở khía cạnh này: nó mã hóa 16 AU xảy ra một mình hoặc kết hợp trong chuỗi hình ảnh khuôn mặt xem trực diện. Tuy nhiên, ngay cả khi một hệ thống nhận dạng các hoạt động cơ mặt có thể xảy ra, việc giải thích cảm xúc của các dấu hiệu trên khuôn mặt sẽ không phải là một nhiệm vụ tầm thường. Mục tiêu này thực hiện khó khăn bởi các sắc thái phong phú của trạng thái tình cảm / suy nghĩ mà con người nhận ra trong một biểu hiện trên khuôn mặt. Một yếu tố khó khăn chính khác là một cử chỉ khuôn mặt thể hiện có thể dễ bị hiểu sai nếu không tính đến sự hiện diện của dữ liệu giọng nói trực quan. Ví dụ, người nói có thể cau mày để nhấn mạnh mức độ khó của vấn đề đang được thảo luận và người nghe có thể biểu thị rằng anh ta không hiểu vấn đề đang được đề cập. Tuy nhiên, cho đến nay, các hệ thống phân tích thông tin khuôn mặt tự động thường không thực hiện việc giải thích dữ liệu cảm nhận do người dùng lập và hầu như tất cả các phương pháp phân tích cử chỉ khuôn mặt tránh được việc giải quyết các câu hỏi liên quan đến việc đối tượng được quan sát có đang nói hay không. Sau đó rất dễ thực hiện nếu người ta có thể giới hạn ngữ cảnh. Ví dụ, nếu bạn biết rằng ngoại trừ đối tượng được quan sát không có người nào khác trong khu vực, thì việc mím môi có thể biểu thị một dấu hiệu trên khuôn mặt đang buồn chán hoặc đang suy nghĩ chứ không phải là tín hiệu giọng nói dễ thấy. Tuy nhiên, khi nghiên cứu hướng tới việc tạo điều kiện tổng quát hơn cho các hội nghị truyền hình, truy cập ảo vào các trang web Internet, v.v., các tác giả sẽ phải đối mặt trực tiếp với vấn đề phân biệt các cử 48 chỉ khuôn mặt đặc trưng cho việc phát âm giọng nói với những thái độ hoặc ảnh hưởng của tín hiệu. Do đó, một hệ thống nhận dạng về việc đối tượng được quan sát có đang nói hay không và kiến thức về cử chỉ khuôn mặt tạo thành tín hiệu giọng nói đều cần thiết cho một diễn giải cảm xúc của các dấu hiệu trên khuôn mặt. Trích chọn đặc trưng là một phần quan trọng để nhận dạng đối tượng và các đối tượng có đặc điểm rõ ràng, cố định có thể được phân loại dễ dàng. Do vậy, việc xử lý hình ảnh để cải thiện độ rõ nét của các đối tượng trong hình ảnh là việc làm quan trọng trước khi thực hiện việc trích chọn các đặc trưng mong muốn. Nhìn chung, việc trích chọn đặc trưng cử chỉ của khuôn mặt thường được thực hiện theo quy trình sau: 2.2.1 Loại bỏ nhiễu hình ảnh Các hình ảnh đều chứa nhiễu ở một mức độ nào đó, làm giảm chất lượng hình ảnh và độ nét của cạnh và các đặc trưng của ảnh. Tuy nhiên, có thể giảm nhiễu xuống đến một giới hạn có thể chấp nhận được trước khi tiến hành phân tích sâu hơn trên ảnh. Có nhiều phương pháp loại bỏ nhiễu, ví dụ: tính trung bình hình ảnh, Bộ lọc trung vị, Bộ lọc sigma, Bộ lọc Wiener, FFT và Biến đổi Wavelet, v.v... Cụ thể như sau: a) Trung bình hình ảnh và Bộ lọc trung vị Tính trung bình ảnh là cách đơn giản và nhanh chóng để loại bỏ nhiễu và được sử dụng rộng rãi trong xử lý ảnh kỹ thuật số. Trong thuật toán này, giá trị của mỗi pixel đầu ra được xác định từ việc lấy trung bình giá trị pixel của các vùng lân cận của nó. Còn Bộ lọc trung vị sử dụng một thuật toán tương tự, trong đó giá trị của mỗi pixel đầu ra được xác định từ giá trị pixel trung bình của các vùng lân cận của nó. Tuy nhiên, cả hai kỹ thuật này đều dẫn đến việc làm mịn hình ảnh, điều này có nhược điểm là nó cũng làm mờ hình ảnh và làm giảm thông tin cạnh, như đã mô tả ở trên, rất quan trọng để phát hiện các đặc trưng. b) Bộ lọc Sigma Lee [69] đã thiết kế Bộ lọc Sigma để khắc phục các vấn đề của Bộ lọc trung vị và trung bình. Ý tưởng của Bộ lọc Sigma chỉ bao gồm trung bình các giá trị màu xám trong một cửa sổ khác với giá trị màu xám của pixel trung tâm không quá một tham số cố định - được gọi là giá trị “Sigma”. Bộ lọc này có ưu điểm là làm mịn hình ảnh, không có bất kỳ hiện tượng nhòe hay suy giảm cạnh đáng kể nào. Nó cũng có một lợi thế nữa là tốc độ xử lý rất nhanh. Vì vậy, Bộ lọc Sigma được coi là thích hợp nhất để 49 sử dụng trong nghiên cứu này. c) Bộ lọc Wiener Một cách tiếp cận cổ điển để lọc nhiễu là Bộ lọc Wiener [120] [21]. Bộ lọc Wiener sử dụng phương pháp thích ứng theo pixel dựa trên thông tin thu thập từ vùng lân cận cục bộ xung quanh mỗi pixel. Nó sử dụng thông tin này để ước tính giá trị trung bình cục bộ và phương sai xung quanh mỗi pixel. Tuy nhiên, một vấn đề với phương pháp này là nó tương đối thành công đối với hình ảnh có nhiều nhiễu, nhưng không hoạt động tốt đối với hình ảnh ít nhiễu. Ngoài ra, nó cũng giới thiệu một số điểm làm mờ và phức tạp về mặt tính toán nên nó không thể được sử dụng trong các ứng dụng thời gian thực. d) FFT và Biến đổi Wavelet Phân tích FFT là một công nghệ rất quan trọng trong xử lý tín hiệu và xử lý hình ảnh và hoạt động bằng cách tách một hình ảnh thành các miền tần số không gian khác nhau của nó. Bằng cách tách thành tần số cao và tần số thấp, nhiễu được loại bỏ dễ dàng. Một thuật toán được phát triển bởi Kovesi cung cấp một ví dụ điển hình về việc loại bỏ nhiễu ảnh bằng cách sử dụng Bộ lọc FFT. Thuật toán này đã được sử dụng trong nghiên cứu này để chiết xuất các đặc điểm trên khuôn mặt. Một quá trình tương tự được gọi là biến đổi wavelet [11]. 2.2.2 Làm mịn bảo toàn cạnh của khuôn mặt Như đã thảo luận ở trên, lọc trung bình và lọc trung vị sẽ làm mờ hình ảnh và làm giảm thông tin về cạnh và rất khó để tìm ra giá trị sigma tối ưu để sử dụng trong lọc Sigma. Các nhà khoa học đã cố gắng tạo ra một thuật toán có thể làm mịn hình ảnh mà không bị nhòe hoặc suy giảm cạnh. Cách tiếp cận của họ là xuất ra giá trị của từng pixel riêng lẻ bằng cách sử dụng các phép tính dựa trên các pixel xung quanh. Phương pháp này đã được cải tiến, đầu tiên là bởi [86] và Tomita [108], những người đã đề xuất sử dụng một số mặt nạ hình chữ nhật có chứa một số pixel tập hợp làm cơ sở cho các tính toán. Mức xám trung bình của mặt nạ đồng nhất sẽ được gán cho mỗi pixel làm giá trị đầu ra. Điều này đồng nghĩa với việc hình ảnh mịn, giảm nhiễu nhưng hình ảnh không bị nhòe hay viền giảm chất lượng đáng kể. Thuật toán này đã được sử dụng trong nghiên cứu này để hỗ trợ việc tạo ra các đường biểu diễn để thể hiện các đặc điểm trên khuôn mặt. Nhìn chung, các thuật toán khác nhau được mô tả ở trên có các ứng dụng khác nhau và mỗi thuật toán đều có ưu điểm và nhược điểm. 50 Đối với hình ảnh kích thước lớn, lọc trung bình và lọc trung vị là một kỹ thuật hiệu quả. FFT và biến đổi wavelet là một thuật toán tốt để tăng cường các tính năng cạnh đặc biệt, trong khi Bộ lọc Sigma phổ biến trong xử lý ảnh. 2.2.3 Hiệu chỉnh ánh sáng và cải thiện đặc trưng khuôn mặt Như đã đề cập ở trên, sự khác biệt về màu da và điều kiện ánh sáng có thể khiến việc phân tích biểu hiện trên khuôn mặt trở nên khó khăn hơn. Những người da sẫm màu trông sáng hơn trong môi trường ánh sáng rực rỡ, trong khi những người da sáng hơn trông tối hơn trong môi trường ánh sáng kém. Những vấn đề này không thể được khắc phục bằng cách chỉ sử dụng các kỹ thuật liên quan đến phân tích không gian màu RGB hoặc HSV. Vì vậy, [121] để làm cho các đặc trưng rõ ràng hơn để trích chọn bất kể điều kiện ánh sáng và màu da, người ta đã quyết định rằng nên sử dụng hình ảnh mức xám thay vì hình ảnh màu. Là một phần của nghiên cứu này, các thuật toán nâng cao tính năng hiện có đã được xem xét và được tóm tắt trong các đoạn sau. a) Điều chỉnh gamma hình ảnh Kỹ thuật này nâng cao hình ảnh bằng cách điều chỉnh giá trị gamma theo cách đơn giản - kỹ thuật tương tự có sẵn trong nhiều phần mềm xử lý hình ảnh hiện nay. Việc điều chỉnh gamma thay đổi mối quan hệ giữa màu đen và trắng. Giá trị mặc định cho gamma là 1, có nghĩa là tuyến tính giữa màu đen và trắng. Nếu gamma nhỏ hơn 1, ánh xạ có trọng số đối với giá trị đầu ra cao hơn (màu trắng) và nếu gamma lớn hơn 1, ánh xạ có trọng số đối với giá trị đầu ra thấp hơn [69]. Điều này có nghĩa là điều chỉnh gamma là một cách hiệu quả để điều chỉnh độ sáng. Cả Martinkauppi [81] và Sterring [103] đều chỉ ra rằng hiệu chỉnh gamma có thể được áp dụng để điều chỉnh biểu đồ hình ảnh giúp cải thiện các đặc điểm trên khuôn mặt. Tuy nhiên, nhược điểm đáng kể của quá trình này là việc điều chỉnh gamma cần thiết để tối ưu hóa hình ảnh giữa các ảnh khác nhau là khác nhau. Do vậy, nghiên cứu này không sử dụng phương pháp điều chỉnh Gamma hình ảnh. b) Biểu đồ cân bằng Biểu đồ cân bằng là thuật ngữ mô tả quá trình mà một thuật toán tính trung bình biểu đồ của một hình ảnh. Thuật toán này có thể điều chỉnh biểu đồ theo nhiều cách khác nhau. Ví dụ, cũng như tính trung bình, độ tương phản của hình ảnh có thể được tăng cường bằng cách kéo giãn biểu đồ hoặc nó có thể được điều chỉnh để gần như khớp với một biểu đồ cụ thể. 51 Biểu đồ cung cấp thông tin về độ phơi sáng của hình ảnh. Nếu biểu đồ chỉ ra rằng có một số lượng lớn các điểm ảnh tối thì hình ảnh có thể bị thiếu sáng. Nếu có quá nhiều các điểm ảnh sáng thì có lẽ nó đã bị phơi sáng quá mức. Trong thuật toán nhận diện khuôn mặt của Rowley [96], một thuật toán hiệu chỉnh ánh sáng được áp dụng, sau đó cân bằng biểu đồ được áp dụng để nâng cao các đặc điểm khuôn mặt. c) Tăng cường bằng phép toán logic Morph Phép toán logic Morph được thiết kế để phân biệt các đối tượng ở tiền cảnh với hậu cảnh, bằng cách đo lường sự khác biệt về độ phơi sáng và độ tương phản trên hình ảnh. Thuật toán này xem xét giá trị pixel hiện tại và khu vực xung quanh của nó (được gọi là phần tử cấu trúc). Tương tự như kỹ thuật điều chỉnh gamma, kỹ thuật này chỉ phù hợp với từng hình ảnh riêng lẻ. d) Cân bằng biểu đồ thích ứng có giới hạn tương phản (CLAHE) Thay vì nâng cao các tính năng theo biểu đồ của toàn bộ hình ảnh, Pizer [91] đã giới thiệu Contrast-limited adaptive histogram equalization (CLAHE) nhằm nâng cao các đặc trưng trong hình ảnh dựa trên các vùng nhỏ hơn. Điều này đã được cải thiện hơn bởi Zuiderveld [135]. CLAHE là một thuật toán tương tự với thuật toán cân bằng biểu đồ, nhưng nó cung cấp các tính năng nâng cao tốt hơn. Ý tưởng cơ bản là chia hình ảnh gốc thành nhiều ô hoặc nhiều vùng. Thay vì tính toán biểu đồ chung của toàn bộ hình ảnh, CLAHE chỉ tính toán biểu đồ cho từng khu vực. Nó cho độ tương phản tốt hơn và kết quả chính xác hơn bằng cách nâng cao độ tương phản của ảnh là ước tính nền ảnh và trừ ảnh khỏi ảnh nền. 2.2.4 Trích chọn đặc trưng cử chỉ của khuôn mặt Một số nghiên cứu đã được hoàn thành về nhận dạng nét mặt dựa trên video để kiểm tra hiệu suất của các kỹ thuật khác nhau được sử dụng trong bối cảnh này cho các cơ sở dữ liệu khác nhau. Chew [26] trình bày hệ thống FER dựa trên phương pháp CLM (mô hình cục bộ bị ràng buộc) và trích xuất tính năng LBP bằng cách sử dụng bộ dữ liệu GEMEP-FERA. Họ kết luận rằng LBP có độ chính xác thấp hơn khi điều kiện chiếu sáng được cố định. Bên cạnh đó, Baltrusaitis [15] đề xuất một hệ thống phát hiện các đặc trưng cử chỉ trên khuôn mặt. Mục đích thứ hai nhằm xác định tỷ lệ phân loại trung bình cho các trạng thái cảm xúc khác nhau bằng cách sử dụng điểm, bộ lọc Gabor và bộ phân loại SVM (Support Vectors Machine). Ngoài ra, việc sử dụng thuật toán LBP để trích xuất đặc trưng và SVM cho bước phân loại là khá khó 52 khăn. Điều này cũng đã được khẳng định bởi Ghimire [44], trong đó dùng phương pháp nhận dạng nét mặt bằng thuật toán Adaboost, các nét mặt được nhận dạng bằng ELM sau đó hỗ trợ máy vectơ SVM phân loại. Valstar [112] đề xuất sự kết hợp của hai loại mô tả để giải quyết những thách thức của nhận dạng cảm xúc khuôn mặt: Mô hình nhị phân Gabor cục bộ (LGBP) và Mô hình ngoại hình chủ động (AAM) tự động phát hiện chuyển động trên khuôn mặt. Theo thử nghiệm của họ, sự kết hợp của biểu đồ AAM và LGBP làm tăng độ chính xác của phân loại. Các nghiên cứu khác đã tập trung vào các vấn đề tương tự [122]. Chính vì vậy mà trong nghiên cứu này, nghiên cứu sinh kế thừa Mô hình AAM cải tiến này và bổ sung thuật toán định vị các điểm điều khiển. Cụ thể như sau: AAM là một thuật toán trong lĩnh vực thị giác máy nhằm mục tiêu tối ưu một mô hình thống kê hình ảnh thể hiện của đối tượng vào một ảnh đầu vào mới, kết quả của quá trình tối ưu là một bộ điểm điều khiển thể hiện cấu trúc của đối tượng đã được học với các tọa độ tương ứng với thể hiện trong ảnh đầu vào của đối tượng cùng với nó là một bộ các tham số mô hình thống kê đã được ước lượng mà từ những tham số mô hình này, ta có thể dễ dàng tái cấu trúc cả về hình dạng cũng như kết cấu hình ảnh của đối tượng tương ứng một cách tương đối với thể hiện của đối tượng ở trong ảnh thử nghiệm. Mô hình thuật toán được đề xuất bởi Cootes [59]. Cách tiếp cận này trở thành một chủ đề rất được thu hút đối với các nhà nghiên cứu thị giác máy cũng như các nhà phát triển phần mềm bởi vì nền tảng lý thuyết chắc chắn của thuật toán, sự mềm dẻo và tính linh động trong việc thiết kế và chỉnh sửa thuật toán theo những yêu cầu cụ thể cũng như vì khả năng ứng dụng thực tế đầy hứa hẹn trong những hệ thống phần mềm rất thiết có thể hình dung được rõ ràng trong thực tế cuộc sống. Và thực sự, hướng tiếp cận này đã được sử dụng rộng rãi trong việc lĩnh vực xử lý ảnh y tế và trong các hướng nghiên cứu về so khớp và giám sát khuôn mặt. Trong AAM, đối tượng quan tâm được mô hình hóa bởi một tập điểm mô tả hình dạng và kết cấu hình ảnh của nó, kết cấu hình ảnh được lấy chính là mẫu của những giá trị cường độ ảnh trong những vùng được giới hạn bởi tập điểm điều khiển. Mô hình thống kê của đối tượng đảm bảo có thể mô tả được những biến thể về hình dạng và những biến thể về kết cấu hình ảnh cũng như mối tương quan giữa chúng. Các vấn đề nổi bật được quan tâm trong phương pháp này là việc xây dựng mô hình thống kê cho đối tượng ảnh và việc thiết kế thuật toán tối ưu để thực hiện tìm kiếm. 53 Ở đây, việc xây dựng mô hình thống kê toán học cho đối tượng bao gồm việc xây dựng mô hình thống kê toán học cho hình dạng, mô hình mô hình thống kê toán học cho kết cấu hình ảnh và việc kết hợp hai mô hình đó để ra được mô hình cho đối tượng. Module trích rút đặc trưng được mô tả trong tài liệu này bao gồm hai bước là phát hiện khuôn mặt và định vị tập điểm điều khiển. Mô hình chi tiết về module được thể hiện: Hình 2.3 Sơ đồ module hệ thống Module được thiết kế trên cơ bản dựa vào tiếp cận giám sát. Việc sử dụng hay không thao tác phát hiện khuôn mặt là dựa trên cờ trạng thái có thực hiện phát hiện khuôn mặt hay không. Cờ trạng thái này khi khởi tạo hệ thống được đặt là true. Nếu phát hiện được khuôn mặt hợp lệ cờ trạng thái sẽ được đặt ra là false; cờ trạng thái này sẽ được đặt lại là true nếu ở bước sau kiểm tra hình dạng kết quả không hợp lệ. Ở các lượt sử dụng tiếp theo vị trí khuôn mặt sẽ được lấy trực tiếp từ vị trí cũ kết hợp với một vài thao tác ước lượng đơn giản dựa trên vận tốc chuyển động của khuôn mặt trên khung hình. Sau khi đã xác định được vị trí của khuôn mặt trong khung hình, hệ thống sẽ tiếp tục tính toán vùng ảnh sẽ sử dụng để giới hạn dữ liệu tìm kiếm tập điểm điều khiển thể hiện hình dạng của khuôn mặt. Vùng ảnh này sẽ được chuẩn hóa và tăng cường chất lượng cho kết cấu hình ảnh của vùng ảnh. Đây chính là bước chuẩn bị dữ liệu thuật toán AAM được sử dụng để định vị đối tượng hình dạng của khuôn mặt trong khung hình. Sau bước AAM, hệ thống tiến hành kiểm tra lại đối tượng hình dạng đã tính được để một bước nữa kiểm tra sự hợp lệ. Nếu thỏa mãn, đối tượng hình dạng được trả ra làm kết quả module, nếu không thỏa mãn, hệ thống kiểm tra tiếp xem vị trí khuôn mặt được dùng là kết quả từ tác vụ giám sát khuôn mặt; nếu trong tình huống thứ hai, hệ thống sẽ quay lại bước phát hiện khuôn mặt, nếu không thì 54 thông báo không trích rút được đặc trưng hình dạng khuôn mặt. a. Mô hình hình dạng Mô hình thống kê toán học của hình dạng ở đây được dùng để mô tả hình dạng của đối tượng trong ảnh. Mô hình được biểu diễn bởi một tập hợp có thứ tự các điểm điều khiển, thông thường là các điểm 2 chiều hoặc 3 chiều. Mô hình hình dạng mà các tác giả xây dựng cần thiết để có thể thể hiện được các biến thể của đối tượng ảnh về mặt trong những điều kiện thu nhận khác nhau, nói cách khác, mô hình này cần có đặc điểm là bất biến với các phép biến đổi hình học. Trong công trình đã đề xuất, nghiên cứu sinh đã sử dụng phép biến đổi tương đương bao gồm phép dịch chuy
File đính kèm:
luan_an_phat_trien_cac_ky_thuat_bieu_dien_bieu_cam_khuon_mat.pdf
LA_Huỳnh Cao Tuấn_Trang TT_E.pdf
LA_Huỳnh Cao Tuấn_Trang TT_V.pdf
LA_Huỳnh Cao Tuấn_TT.pdf
QĐ_ Huỳnh Cao Tuấn.pdf