Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 1

Trang 1

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 2

Trang 2

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 3

Trang 3

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 4

Trang 4

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 5

Trang 5

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 6

Trang 6

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 7

Trang 7

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 8

Trang 8

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 9

Trang 9

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 110 trang Hà Tiên 27/02/2024 1260
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

Luận án Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy
.1.2.2 Phương pháp xấp xỉ dữ liệu bằng siêu cầu 
Phương pháp xấp xỉ siêu cầu là đi tìm siêu phẳng bằng cách xác định tích vô 
hướng giữa điểm  và  trong không gian CGA. Từ công thức (2.19) và (2.22), tích 
nội của  và  là 
(,) =  + 
1
2
‖‖ +  .( +  + )
= . −  − 
1
2
‖‖ 
(2.23) 
Khi (, ) = 0, chúng ta có 
 . −  − 
1
2
‖‖ = 0 (2.24) 
 ⟺ 
. −  = 0 ( = 0 )
 − 
1



= 
‖‖ − 2

 ( ≠ 0)
 (2.25) 
Theo (2.25) thì khi (, ) = 0 thì điểm  nằm trên siêu mặt phẳng ( = 0) 
hoặc là nằm trên siêu mặt cầu ( ≠ 0) được thể hiện như vectơ bảo giác  trên không 
gian CGA. 
Giả sử cho tập vectơ đầu vào  = { = ∑ 

  ∈ 
, = 1, , } được 
biểu diễn lại như sau:  = { =  + 


‖‖
 + , = 1, , } . Theo (2.23) 
thì vectơ bảo giác  được biểu diễn dưới dạng tổng quát là  =  +  + . 
Phương pháp xấp xỉ siêu cầu bằng cách tìm tổng bình phương khoảng cách giữa  và 
 có lỗi là nhỏ nhất. Hàm lỗi  được định nghĩa, 
  =  


(,) (2.26) 
Từ (2.23) và (2.26), chúng ta suy ra được, 
  =  . −  − 
1
2
‖‖



 (2.27) 
Từ (2.27), chúng ta có thể thấy siêu mặt cầu hay siêu mặt phẳng sẽ không thay 
40 
đổi khi chúng ta nhân vào hai vế một giá trị tỉ lệ. Điều này, có nghĩa là khi chúng ta 
tối ưu hàm lỗi  với điều kiện ‖‖ = 1 thì (2.27) sẽ tương ứng như sau: 
  (. −  − 
1
2
‖‖
)



 (2.28) 
trong đó: 
 ‖‖ = 1 (2.29) 
Theo ràng buộc (2.29) có thể hạn chế hiệu suất của việc nhận dạng của đối 
tượng so với từng nhóm đã có do ảnh hưởng bởi vị trí hình cầu. Để cải tiến vấn đề 
này, chúng ta sẽ cải thiện ràng buộc ở (2.29). 
Từ công thức (2.28) và ràng buộc (2.29), chúng ta có thể sử dụng một bộ số 
không âm Lagrange  cho hàm tối thiểu như sau: 
  = 
1

(. −  − 
1
2
‖‖
)



− (‖‖ − 1) (2.30) 
Đạo hàm từng phần các giá trị của  ta được: 


= 
2

(. −  − 
1
2
‖‖
)


− 2 = 0, (2.31) 


= −
2

 . −  − 
1
2
‖‖
 


= 0, (2.32) 


= −
1

 . −  − 
1
2
‖‖
 ‖‖



= 0 (2.33) 
Từ (2.31), (2.32), và (2.33), chúng ta có được, 
  =  . (2.34) 
1
2
 =  . (2.35) 
trong đó, tổng bình phương ∑ = ∑ ‖‖

 và tổng bậc 4 là: ∑ = ∑ ‖‖

 . 
Khi đó, 
41 
  = 
− ∑ ∑ 

 +  ∑ ∑ ‖‖


 
(∑  )
 −  ∑ 
 (2.36) 
  = 
∑ ∑ 

 −   ∑ ‖‖



(∑  )
 −  ∑ 
 (2.37) 
Để đơn giản, chúng ta định nghĩa: 
 () =  −  − ‖‖
 ∈ 
 (2.38) 
Khi đó công thức (2.30) được viết lại, 
  =  − (‖‖ − 1) (2.39) 
trong đó, 
  = 
1

 (


)() (2.40) 
Cuối cùng, vấn đề tối ưu được giải quyết bằng bài toán tìm giá trị riêng và 
vectơ riêng (eigenvalues, eigenvector). 
  =  (2.41) 
Một vectơ bảo giác riêng  là một siêu cầu được định nghĩa trên không gian 
, [78]. Giá trị riêng  là phương sai của bình phương khoảng cách giữa các  
và . Các siêu cầu hoặc siêu phẳng sẽ khớp với tập dữ liệu khi giá trị riêng  là 0. Bởi 
vì có  giá trị riêng khi dữ liệu gốc biểu diễn không gian là  chiều. Cho nên, có thể 
phát hiện được (−  ) chiều trên siêu phẳng sử dụng  vectơ bảo giác riêng tương 
ứng với  giá trị riêng nhỏ nhất. Trong trường hợp dữ liệu trên không gian 3 chiều, 
thì chúng ta có thể tìm được một vòng tròn là giao điểm của hai mặt cầu có giá trị 
riêng là nhỏ nhất. 
2.2 Đề xuất phương pháp phân cụm dữ liệu sử dụng CGA 
Phân cụm dữ liệu là một kỹ thuật học máy không giám sát quan trọng trong 
khai phá dữ liệu. Mục đích của phân cụm là nhóm các đối tượng vào các cụm khác 
nhau sao cho các đối tượng trong cùng một cụm có các đặc trưng tương đồng với 
nhau cao và các cụm khác nhau có tính bất tương đồng lớn [7], từ đó hỗ trợ cho các 
42 
hệ thống huấn luyện dữ liệu và nhận dạng đối tượng. 
Một số phương pháp phân cụm trước đây như phương pháp J. B. MacQueen 
[37] đã sử dụng phương pháp tối thiểu hàm mục tiêu dựa vào kích thước khoảng cách 
sau đó gắn nhãn cho từng điểm dữ liệu. Trong khi đó, để xem xét cấu trúc hình học 
của dữ liệu thì J. C. Bezdek [7] đã dựa trên kích thước của đường thẳng để phân cụm 
và R. Krishnapuram [13] đã phân cụm bằng cách tính kích thước từ điểm đến hình 
cầu. Trong thực tế, các phương pháp phân cụm trên đều tối ưu từ hàm khoảng cách 
(từ điểm đến điểm hoặc từ điểm đến đường thẳng hoặc mặt phẳng) và phổ biến nhất 
là phương pháp phân cụm k-means [49, 71, 92], nên gặp rất nhiều khó khăn với các 
đối tượng chuyển động hoặc quay trong không gian có dữ liệu phân phối dạng hình 
cong hoặc siêu cầu. 
Để khắc phục những hạn chế trên, luận án đề xuất hai phương pháp phân cụm 
dữ liệu của các đối tượng chuyển động trong không gian, đó là: phương pháp phân 
cụm dữ liệu sử dụng CGA kết hợp với GMM để tạo ra chuỗi vectơ liệu tục cho HMM 
và phương pháp lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA để tạo 
ra chuỗi vectơ rời rạc cho HMM. 
Hình 2.6: Mô hình nhận dạng hành động dựa trên phương pháp phân 
cụm sử dụng CGA kết hợp với HMM 
Mô hình đề xuất Hình 2.6 được chia thành hai bước. Bước thứ nhất là xây 
dựng mô hình huấn luyện từ bộ dữ liệu huấn luyện, dữ liệu huấn luyện (đầu vào) được 
43 
biểu diễn thành các vectơ trong không gian và sử dụng phương pháp CGA_Clustering 
hoặc CGA_Gauss để tạo các chuỗi vectơ cho HMM huấn luyện. Bước thứ hai là nhận 
dạng hành động, dữ liệu kiểm thử được đưa vào mô hình đã huấn luyện để dự đoán 
kết quả chính xác của các hành động. 
2.2.1 Phân cụm dữ liệu sử dụng CGA dựa trên GMM 
Hàm mật độ xác suất Gauss sử dụng công thức (1.1) để xác định phân bố xác 
suất của đối tượng nên có hình dạng “chuông”. Tức là ở gần tâm của dữ liệu thì có 
phân bố dày và ở xa tâm thì sẽ có phân bố thưa hơn. Đối với những phân bố phức tạp 
như Hình 2.7 nếu sử dụng mật độ Gauss để xấp xỉ thì độ chính xác không cao. 
Hình 2.7: Dữ liệu của đối tượng phân bố dạng hình cung 
Vì vậy, luận án đề xuất mô hình phân cụm sử dụng CGA dựa trên GMM 
(CGA_Gauss) để biểu diễn dữ liệu các đối tượng chuyển động. 
Giả sử cho tập dữ liệu  =  = ∑ ; ∈ 
| = , ∈ {1, , }

 , 
trong đó  là nhãn của cụm và phương pháp phân cụm CGA_Gauss sử dụng các 
công thức (2.19), (2.22), (2.30), (2.40) và (2.41) để ước tính (xấp xỉ)  cặp siêu cầu 
hoặc siêu phẳng , ∈ {1, , }. CGA sẽ tối ưu dữ liệu bằng cách sử dụng công thức 
(2.30) để đi tìm giá trị riêng và vectơ riêng (eigenvalues, eigenvectors) từ công thức 
(2.41). 
Một vectơ riêng  trong không gian CGA được xem như là một vectơ bảo giác 
riêng (eigen conformal vector) và được biểu diễn là  =  +  +  và giá trị 
44 
riêng  là phương sai dựa trên khoảng cách (,) từ điểm  đến vectơ . Trong 
luận án, chúng tôi giả sử rằng các phương sai dựa trên khoảng cách (,) tuân theo 
hàm phân phối Gauss. Khi đó, mô hình hỗn hợp Gauss trong không gian CGA sẽ là: 
 () =  (|)


 (2.42) 
với mật độ Gauss kết hợp với CGA, 
 (|) =
1
 2
exp −
(,)
2
 (2.43) 
trong đó,  =  là một vectơ quan sát,  =  + , + , là vectơ bảo giác 
riêng (conformal eigenvector) thứ  trong không gian CGA,  =  +


‖‖
 +
 là một điểm trong không gian CGA và  là phương sai hay giá trị riêng 
(eigenvalue) thứ l của quan sát  trong không gian CGA. 
Phương pháp phân cụm CGA_Gauss được xác định thông qua tối thiểu hàm 
E, 
  = 
,
  (,)




 (2.44) 
trong đó,  là số phân cụm và  là nhãn của dữ liệu. 
Thuật toán (2.1) phân cụm CGA_Gauss gồm các bước cơ bản như sau: 
 Đầu vào: Dữ liệu đầu vào  và số phân cụm  
 Đầu ra: Tâm các cụm  và dữ liệu trong các cụm 
Bước 1: Chọn số phân cụm . 
Bước 2: Chỉ định ngẫu nhiên nhãn  ∈ {1, ,} cho mỗi điểm dữ 
liệu . 
Bước 3: Ước lượng hàm mật độ xác suất sau (|) cho tất cả các 
phân cụm 
 = {| = }. 
45 
Bước 4: Cập nhật lại nhãn  = argmax

(|)(), trong đó 
() =
||

 là tâm phân phối của cụm , và || là số dữ 
liệu trong cụm . 
Bước 5: Lặp lại bước 2 cho đến khi kết thúc. 
Điều kiện kết thúc có thể là sự thay đổi trọng tâm của các cụm ít hơn một giá 
trị đã định hoặc số vòng lặp đạt đến một giá trị ngưỡng đã định. 
Từ công thức (1.2), cho thấy hàm mật độ Gauss phụ thuộc vào khoảng cách từ 
vectơ  đến  và phương sai. Tuy nhiên, trong không gian CGA khoảng cách 
(,) từ công thức (2.44) được xác định từ một điểm đến một vector là điểm, mặt 
phẳng hoặc mặt cầu. Vì vậy, phương pháp phân cụm CGA dựa trên hàm mật độ Gauss 
(CGA_Gauss) có thể biểu diễn được các phân phối phức tạp khác nhau dưới dạng 
siêu cầu, hình tròn và cung, bằng cách tối ưu hàm mật độ Gauss dựa trên khoảng cách 
trong không gian CGA. Phương pháp đề xuất đã khắc phục được những hạn chế của 
phân phối Gauss có phân bố dữ liệu dạng hình “chuông” và chỉ biểu diễn tốt dạng dữ 
liệu co cụm gần tâm. 
2.2.2 Lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA 
Để chuyển dữ liệu liên tục thành dữ liệu rời rạc cho HMM rời rạc. Trong phần 
này, luận án đề xuất phương pháp lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử 
dụng CGA. Quá trình lượng hóa vector (Vector quantization - VQ) [23, 78] cho phép 
các mô hình rời rạc biểu diễn những quan sát liên tục bằng cách ánh xạ mỗi quan sát 
liên tục thành một mẫu hoặc vectơ rời rạc. Cụ thể, quá trình ánh xạ quan sát liên tục 
 chiều thành các nhãn nằm trong chuỗi mã hóa (codebook) và ánh xạ này được xác 
định bằng cách tối ưu hàm mục tiêu khoảng cách (2.45) trong quá trình đề xuất. 
Phương pháp phổ biến nhất hiện nay để xác định hàm mục tiêu trong lượng tử hóa 
vectơ là thuật toán k-means [29, 30, 71, 88]. Tuy nhiên, luận án đã đề xuất sử dụng 
CGA để tối ưu hóa hàm mục tiêu (2.45) bằng cách sử dụng các phép biến đổi trong 
không gian CGA. 
46 
Giả sử cho tập dữ liệu huấn luyện  = {,⋯ ,}, trong đó  = || là số 
mẫu, quá trình lượng tử hóa vectơ là phép ánh xạ tập vectơ  = ,,⋯ ,,,,∈
 ban đầu thành một tập xác định các vectơ  = ,,⋯ ,,, ∈  mỗi vectơ 
 được gọi là một codevector và một tập các codevector gọi là một codebook. Mục 
đích của lượng tử hóa là làm thế nào để sai số lượng tử là nhỏ nhất. Để đạt được điều 
này thì chúng ta phải chọn ra được các codevector sao cho độ lệch trung bình giữa 
codevector với các vectơ trong vùng mã hóa là nhỏ nhất. Khi đó, các codebook được 
xem như trong tâm của các vectơ và  = {,⋯ ,}, ∈ 
 trong đó,  là số 
trọng tâm tương ứng các codebook . Như vậy, bây giờ vấn đề lượng tử hóa vectơ 
đã trở thành bài toán phân cụm dữ liệu với các cụm có tâm là  và dữ liệu trong các 
cụm là  và khoảng cách từ  đến tâm  là, 
  = argmin

(,),∀ ∈ [1,⋯ ,] (2.45) 
trong đó (,) = ‖ − ‖
 là khoảng cách bình phương Euclid từ điểm  
đến tâm . 
Phương pháp phân cụm sử dụng CGA sẽ được thực hiện trên không gian CGA 
và dữ liệu tất cả các mẫu  trong không gian thực 
 được chuyên sang dạng tập 
các điểm (2.19), = ,,⋯ ,,,,= ,+


,

 +  ∈ , trong 
không gian CGA. Codebook được định nghĩa bởi tập vectơ  = {,⋯ ,}, từ 
(2.22)  được viết là  =  + , + , ∈ , khi đó hàm để ước lượng 
dữ liệu các cụm chúng ta sử dụng hàm tối thiểu (2.26) như sau: 
  = argmin
,
   ,,,,






 (2.46) 
 s.t.  ,, = 1 


,  ,, ∈ {0,1}, (2.47) 
trong đó ,, = ,∙ − ,−


,

,

 là bình phương khoảng 
cách giữa điểm , và k
th codebook trọng tâm  trong không gian CGA,  là số 
47 
khung hình,  là số hành động và ,, là nhãn của khung hình , hành động  và phân 
cụm . 
Trọng tâm  sẽ được tính bởi hàm Lagrange như sau: 
 =   ,,,∙ − ,−
1
2
,

,

− (‖‖
 − 1)




 (2.48) 
Ở đây, hàm mục tiêu E (2.46) là bình phương của đa thức bậc nhất (tích vô 
hướng giữa , và ) theo các biến và khi tối ưu hàm mục tiêu E này theo ràng buộc 
(2.47) cũng là đa thức bậc hai theo biến , vì vậy khi đạo hàm của hàm bậc hai (2.48) 
là một hàm bậc nhất, nên (2.46) là hàm khả vi tại mọi điểm. Vì vậy, có thể đạo hàm 
của hàm L theo từng thành phần , s và s để đưa bài toán tối ưu về việc tìm vectơ 
bảo giác riêng 
Thuật toán (2.2) phân cụm CGA_Clustering cụ thể như sau: 
 Đầu vào: Dữ liệu đầu vào  và số phân cụm . 
 Đầu ra: Trọng tâm các cụm  và dữ liệu được gán nhãn trong cụm. 
Bước 1: Gán nhãn ngầu nhiên cho tất cả  
,← (1, ,) 
Bước 2: Tính “trọng tâm” (điểm/cầu/phẳng) các cụm. 
 =  +  , +  , 
Bước 3: Gán lại nhãn cho tất cả  
, = argmin

,,  
với ,,  = ,∙  −  ,−


‖‖
,

Bước 4: Quay lại bước 2 nếu có sự thay đổi 
Hình 2.8 là minh họa cho quá trình phân cụm sử dụng đại số hình học bảo 
giác. Hình a) là dữ liệu phân bố hai lớp màu xanh và màu vàng trộn lẫn vào nhau. 
Hình b) là kết quả biến đổi dữ liệu từ không gian thực  chiều () sang không gian 
CGA và được phân thành hai cụm có trọng tâm là  và . 
48 
Hình 2.8: Phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác 
Từ (2.46) chúng ta có thể nhận thấy rằng, phương pháp đề xuất phân cụm sử 
dụng CGA (CGA_Clustering) sẽ tối tối ứu khoảng cách ,, từ điểm , đến 
trọng tâm  là dạng siêu cầu trong không gian CGA có  + 2 chiều (,), tức là 
tăng thêm 2 chiều so với trong không gian thực là  chiều. Trong khi đó, phân cụm 
sử dụng k-means sẽ thực hiện trên không gian thực  chiều () và tính toán tối ưu 
hàm khoảng cách ,, từ điểm , đến trong tâm  là một điểm. Vì vậy, 
phương pháp đề xuất phân cụm sử dụng CGA rất phù hợp với các đối tượng chuyển 
động trong không gian có phân bố phức tạp. 
Hình 2.9: Mô hình nhận dạng hành động bằng phương pháp lượng tử hóa 
vectơ dựa trên phân cụm dữ liệu sử dụng CGA và thuật toán k-means 
Hình 2.9 là mô hình huấn luyện nhận dạng hành động bằng phương pháp 
lượng tử hóa vectơ dựa vào phân cụm sử dụng CGA và thuật toán k-means. Mô hình 
được chia làm ba bước chính. Bước thứ nhất, dữ liệu huấn luyện sẽ được biểu diễn 
dưới dạng các vectơ hành động và mỗi hành động được biểu diễn thành một vectơ 
49 
hành động (vectơ đặc trưng). Bước thứ hai, tiến hành phân cụm dữ liệu bằng phương 
pháp lượng tử hóa vectơ (sử dụng thuật toán k-means hoặc CGA) để chuyển các vectơ 
hành động dạng liên tục thành các vectơ rời rạc. Bước thứ ba, sử dụng HMM để xây 
dựng mô hình huấn luyện và nhận dạng hành động. Trong phần này, luận án tập trung 
đề xuất phương pháp lượng tử hóa vectơ để giải quyết bước thứ hai trong mô hình 
nhận dạng hành động. 
2.2.3 Phương pháp kết hợp HMM với phân cụm sử dụng CGA 
Mô hình Markov ẩn (HMM) là một mô hình học máy rất phổ biến hiện nay, 
ban đầu HMM được nghiên cứu để ứng dụng trong lĩnh vực nhận dạng tiếng nói [24, 
56, 29], nhưng kỹ thuật này đã nhanh chóng được phát triển và ứng dụng trong các 
bài toán nhận dạng hành động [26, 32, 51, 91]. Để nhận dạng hành động, chúng ta 
cần phải xây dựng HMM có khả năng giải bài toán thứ 3 của HMM. Các HMM được 
xác định bởi các thiết lập tham số sau đây: 
  = (,,) (2.49) 
trong đó,  là phân phối xác suất chuyển tiếp trạng thái  = ,  là phân phối 
xác suất của ký hiệu quan sát (codebook index)  = () và  là xác suất khởi 
đầu của mỗi trạng thái. 
Hình 2.10: Mô hình nhận dạng hành động bằng hương pháp kết hợp HMM với 
phân cụm sử dụng CGA 
Để áp dụng HMM trong bài toán nhận dạng hành động như Hình 2.10, chúng 
50 
ta cần thực hiện hai bước chính là huấn luyện dữ liệu và nhận dạng hành động: 
- Bước huấn luyện dữ liệu, chúng ta cần xây dựng một HMM cho mỗi hành 
động cần nhận dạng, dựa vào khả năng quan sát chuỗi , để điều chỉnh 
các tham số  sao cho tối ưu hóa xác suất sinh ra chuỗi  là (|). 
Chuỗi quan sát ở đây là chuỗi vector hành động trích từ dữ liệu huấn luyện 
(vector đặc trưng). Các tham số  trong mô hình thứ 
 có thể được huấn 
luyện với các thuật toán Bauch-Welch (tương tự thuật toán EM [40] để tối 
ưu các tham số của mô hình HMM). Sau khi tất cả các mô hình được huấn 
luyện thì kết quả đầu ra có xác suất cao nhất được sử dụng để xác định 
thuộc vào phân cụm nào. 
- Bước nhận dạng hành động, chúng ta sử dụng thuật toán forward-backward 
[53] để thực hiện đánh giá đối với từng HMM, tức là sử dụng likelihood 
[77] để tính xác suất (|) của chuỗi quan sát  này thuộc vào mô 
hình  nào và cơ sở để xác định độ chính xác của hành động. Chuỗi quan 
sát ở đây là chuỗi vectơ hành động từ dữ liệu kiểm thử. 
Tuy nhiên, HMM là một mô hình ước lượng tham số và dự báo chuỗi thời gian 
nên khi thực hiện nhận dạng hành động cần phải quan sát hết một chuỗi hành động 
rồi mới tiến hành xác định kết quả (nhận dạng hành động). Trong khi đó, yêu cầu 
thực thế là cần phải xác định nhanh hành động diễn ra tại thời điểm quan sát nên có 
thể sử dụng các mô hình PCR hoặc RNN để thay thế cho HMM trong huấn luyện và 
nhận dạng hành động. 
2.3 Đề xuất phương pháp trích chọn đặc trưng sử dụng CGA 
Trích chọn đặc trưng là một trong những phương pháp biểu diễn dữ liệu rất 
quan trọng trong xây dựng mô hình dự báo và nhận dạng đối tượng [61]. Đối với dữ 
liệu có số chiều lớn thì việc huấn luyện sẽ gặp rất nhiều khó khăn về thời gian thực 
thi và dung lượng bộ nhớ của máy tính, cho nên cần phải trích chọn đặc trưng để giảm 
số chiều dữ liệu trước khi đưa vào huấn luyện và nhận dạng. 
51 
Hình 2.11 là mô hình nhận dạng hành động dựa trên phương pháp trích chọn 
đặc trưng PCA, LDA và CGA_PCA kết hợp với các mô hình học máy. Trước tiên, 
dữ liệu huấn luyện được tiến hành tiền xử lý để loại bỏ các thành phần không cần 
thiết. Tiếp đến, tiến hành trích chọn đặc trưng và giảm số chiều dữ liệu. Cuối cùng, 
sử dụng các mô hình học máy để huấn luyện và nhận dạng. 
Hình 2.11: Mô hình nhận dạng hành động dựa trên phương pháp trích 
chọn đặc trưng sử dụng CGA_PCA 
2.3.1 Phương pháp trích chọn đặc trưng sử dụng PCA 
Thuật toán PCA được sử dụng để biểu diễn dữ liệu bằng cách chuyển đổi tập 
dữ liệu trong không gian có nhiều chiều sang một không gian mới ít chiều hơn ban 
đầu. Việc thực hiện này sẽ tiến hành bằng cách đi tìm một hệ trục tọa độ mới sao cho 
khi chiếu dữ liệu lên trục này chúng ta có phương sai là lớn nhất. 
Giả sử tập dữ liệu huấn luyện  như sau, 
  =  ∈ 
× }; ∈ {1, ,}, ∈ {1, ,() (2.50) 
trong đó,  là số hành động,  là số chiều của hành động thứ  và () là số khung 
hình của hành động thứ . 
Từ tập dữ liệu , phương pháp PCA sẽ đi tìm vectơ trọng số của phép biến đổi 
tuyến tính  sao cho phương sai là lớn nhất. Vì vậy, vấn đề cần giải quyết là tối 
ưu hàm, 
52 
max

1
∑ ()
   − 


()



, 
. ‖‖ = 1, 
(2.51) 
trong đó,  là trung bình của tất cả các vectơ trong tập dữ liệu  và 
  = 
1
∑ ()
  
()



 (2.52) 
Để giải quyết bài toán tối ưu (2.51) sử dụng hệ số Lagrange  ≥ 0, hàm 
Lagrange được viết lại như sau, 
 (,) = 
1
∑ ()
  − 


− (‖‖ − 1)
()



 (2.53) 
Khi đạo hàm hàm (, ) theo  tiến đến 0, sẽ nhận được công thức sau, 
1
∑ ()
  −  − 

 = 
()



 (2.54) 
Cuối cùng, vấn đề tối ưu hóa được giải quyết bằng cách xác định vectơ riêng, 
  =  (2.55) 
trong đó,  là ma trận phương sai của tập dữ liệu  và, 
  =
1
∑ ()
  −  − 

()



 (2.56) 
Cuối cùng, PCA giảm số chiều bằng sắp xếp các giá trị riêng theo chiều giảm 
dần và chỉ chọn những  vectơ riêng đầu tiên tương ứng với những giá trị riêng. Khi 
đó, () là những đặc trưng được t

File đính kèm:

  • pdfluan_an_nghien_cuu_bieu_dien_va_nhan_dang_doi_tuong_chuyen_d.pdf
  • pdf05_NG_NANG_HUNG_VAN_DongGopMoi_Luanan.pdf
  • pdf04_NG_NANG_HUNG_VAN_Trich_yeu_Luanan.pdf
  • pdf03_NG_NANG_HUNG_VAN_TomTat_LuanAn_Eng.pdf
  • pdf02_NG_NANG_HUNG_VAN_TomTat_LuanAn_Viet.pdf