Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định

Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
121 trang Hà Tiên 21/05/2024 1980
Download
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định

ác đối tượng xung quanh, đặc biệt là các đối tượng khác, chẳng 
hạn như tranh vẽ, màn hình quảng cáo, ti vi, tủ lạnh, v.v. Ngoài ra, trong [12] các 
tác giả phát hiện ra rằng 70% người trong môi trường muốn thành lập nhóm để 
tương tác với nhau. Do đó, sẽ không đủ hiệu quả nếu robot di động không xem 
xét những thông tin này. Vì vậy, để đảm bảo sự an toàn và thoải mái cho con 
38 
người, robot di động cần nhận thức được các bối cảnh tương tác này, trích xuất 
các tính năng của chúng và kết hợp chúng vào hệ thống điều hướng của robot di 
động. Tương tác của con người trong môi trường này lấy con người làm trung 
tâm, có thể được chia thành hai loại bao gồm tương tác nhóm người hoặc tương 
tác người–sự vật, được trình bày trong [56]. 
Phát hiện tƣơng tác con ngƣời - sự vật: Robot cần ước tính tương tác 
giữa người và sự vật, bởi vì thông tin này là chìa khóa để xác định không gian 
tương tác giữa con người và các sự vật gây chú ý. 
 Giả định rằng người , p pi i ip x y , chú ý tới sự vật 
( ),
obj obj
j j jobj x y như minh họa trong hình 2.2 (e). Đặt các tham số trích 
chọn từ không gian tương tác giữa người và sự vật là 0 , , o om m m mo x y r . 
Ở đó mo là không gian tương tác giữa người và sự vật trong lân cận robot, 
 , o om mx y và 
0
mr là tâm và bán kính của không gian tương tác giữa người và 
đối tượng. Tâm và bán kính được tính theo công thức 
(x , y ) ( , )
2 2
p obj p obj
i j i jo o
m m
x x y y 
 (2.1) 
𝑟𝑚
𝑜 = √
(𝑥
𝑖
𝑝
− 𝑥
𝑗
𝑜𝑏𝑗
)2
4
+ 
(𝑦
𝑖
𝑝
− 𝑦
𝑗
𝑜𝑏𝑗
)2
4
 (2.2) 
Lưu ý rằng không gian tương tác người-sự vật được tạo ra bởi ghép đôi 
của một người và một sự vật được người này chú ý. Hình 2.2 (f) cho thấy một 
ví dụ về không gian tương tác giữa hai con người và sự vật, trong đó hai con 
người tương tác với một sự vật được chú ý. Trong ví dụ này, hai người cũng 
hình thành một nhóm người được nghiên cứu trong phần tiếp theo 
39 
Hình 2.2. Trung tâm và hình dạng (màu đỏ tía) của không gian tương tác. (a) 
Nhóm của hai người đứng. (b) Nhóm bốn người đứng. (c) Nhóm hai người di 
chuyển. (d) Nhóm ba người di chuyển. (e) Không gian tương tác của con 
người-sự vật. (f) Không gian tương tác xã hội của 2 người –sự vật. 
 Thuật toán phát hiện tương tác giữa người và sự vật bao gồm hai bước: 
nhận dạng sự vật và phát hiện tương tác người – sự vật. Đầu ra của thuật toán 
là một số tương tác giữa con người và sự vật được phát hiện O = 
{𝑜1 ,𝑜2 , 𝑜𝑚}, trong đó 𝑜𝑚 là tương tác thứ m giữa người và vật với bộ thông 
số 𝑜𝑚 = (𝑥𝑚 
𝑜 , 𝑦𝑚
𝑜 , 𝜃𝑚
𝑜 , 𝑑𝑚
𝑜 ) trong đó (𝑥𝑚 
𝑜 , 𝑦𝑚
𝑜) là điểm trung tâm, 𝑑𝑚
𝑜 và 𝜃𝑚
𝑜 
lần lượt là độ lớn và hướng của vectơ chiếu từ người đến vật thể. 
 Phát hiện tƣơng tác nhóm ngƣời: 
 Một số phương pháp phát hiện nhóm người tương tác chỉ sử dụng 
thông tin định hướng và vị trí không gian của con người tĩnh, do đó đầu ra của 
của thuật toán chỉ là số lượng nhóm người. Trong luận án phương pháp phát 
hiện nhóm người tương tác ngoài sử dụng các thông tin định hướng và không 
gian của con người thì phương pháp đã sử dụng thêm thông tin chuyển động 
của con người để làm cho mô hình phù hợp với môi trường động. 
40 
 Cho 1 2 , ,. . . , kG g g g là số lượng các nhóm người được phát 
hiện trong vùng lân cận của robot; mỗi nhóm người gk có một bộ tham số 
 , , , , g g g g gk k k k k kg x y v r trong đó , g gk kx y là điểm trung tâm, gk là 
hướng,
g
kv là vận tốc, và 
g
kr là bán kính tương tác của nhóm người. Đầu ra 
của thuật toán là số lượng nhóm người và điểm trung tâm của nó. Thuật toán 
phát hiện nhóm tương tác nhóm người được trình bày chi tiết trong [55]. 
2.4.2.4. Khối kỹ thuật mô hình hóa 
 Một số kỹ thuật đã được sử dụng để mô hình hóa các tính năng tương 
tác giữa con người và các đối tượng trong [25], [26], [53], [54]. Trong nghiên 
cứu này, môi trường là không gian tương tác xung quanh một người, một 
nhóm người hoặc tương tác giữa con người với các đối tượng khác được tạo 
ra bằng cách kết hợp các không gian cá nhân mở rộng của con người và 
không gian tương tác trong vùng lân cận của robot. Hàm 𝐹𝑑𝑠𝑧(x, y) được tính 
như sau: 
 𝐹𝑑𝑠𝑧 (x, y) = max (𝑤1𝐹𝑒𝑝𝑠(𝑥, 𝑦),𝑤2𝐹𝑠𝑖𝑠(𝑥, 𝑦)) (2.3) 
𝐹𝑑𝑠𝑧(x, y) đại diện cho khu vực tương tác, (x, y) là tọa độ của một ô 
trong bản đồ lưới 𝑀𝑛,𝑚 , 𝑤1 là trọng số của không gian cá nhân mở rộng và 
𝑤2 là trọng số của không gian tương tác. 
Hàm 𝐹𝑠𝑖𝑠(𝑥, 𝑦) đại diện cho không gian tương tác của tất cả các tương 
tác trong vùng lân cận của robot được tính như sau: 
 𝐹𝑠𝑖𝑠(𝑥, 𝑦) = max (𝑓1
𝑔(𝑥,𝑦),  , 𝑓𝐾
𝑔(𝑥, 𝑦)) (2.4) 
Hàm 𝐹𝑒𝑝𝑠(𝑥, 𝑦) đại diện cho không gian cá nhân mở rộng của tất cả N 
người trong vùng lân cận của robot, được tính như sau: 
 𝐹𝑒𝑝𝑠(𝑥, 𝑦) = max (𝑓1
𝑒𝑝𝑠(𝑥,𝑦),  , 𝑓𝑁
𝑒𝑝𝑠(𝑥, 𝑦)) (2.5) 
2.4.2.5. Khối dự đoán tư thế tiếp cận 
Khối chức năng này được sử dụng để ước tính tư thế tiếp cận phù hợp 
bao gồm vị trí tiếp cận, định hướng và vận tốc và của robot di động với một 
41 
người, tương tác giữa người với đối tượng hoặc một nhóm người. Tư thế tiếp 
cận 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 = (𝑥𝑞 ,𝑦𝑞 ,𝜃𝑞) ước tính trong Phần III-E1[57] có thể được áp dụng 
trực tiếp khi con người đứng yên (con người đứng hoặc ngồi). Tuy nhiên, đối 
với con người đang di chuyển, robot phải dự đoán tư thế tiếp cận cùng với 
chuyển động của con người, để có thể bắt kịp và tiếp cận đúng cách. 
Hình 2.3. Dự đoán tư thế tiếp cận của một người đang di chuyển 𝑝𝑖 . 
Tư thế tiếp cận hiện tại là 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 (t), tư thế tiếp cận dự đoán 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 (t + ∆t) 
 Đối với con người đang di chuyển, dự đoán tư thế con người đóng một 
vai trò quan trọng vì robot sử dụng thông tin này để dự đoán tư thế tiếp cận và 
quyết định xem nó có tiếp cận con người hay không. Ý tưởng cơ bản của 
thuật toán này là sử dụng bộ lọc Kalman [43] với mô hình chuyển động dựa 
trên vận tốc không đổi của con người. Gọi 𝑋𝑡 = (𝑥𝑡 ,𝑦𝑡 , 𝑥�̇� , 𝑦�̇�)
𝑇 là vector trạng 
thái của một người 𝑝𝑖 tại thời điểm t. Vectơ trạng thái dự đoán của người đó 
𝑝𝑖 tại thời điểm (t + ∆t) là 𝑋𝑡+𝛥𝑡 = (𝑥𝑡+𝛥𝑡 , 𝑦𝑡+𝛥𝑡 , �̇�𝑡+𝛥𝑡 , �̇�𝑡+𝛥𝑡)
𝑇. Do đó, các 
trạng thái dự đoán của con người tại thời điểm (t + ∆t) là 𝑝𝑖
′ (𝑥𝑖
𝑝′
, 𝑦𝑖
𝑝′
, 𝜃𝑖
𝑝′
,𝑣𝑖
𝑝′
), ở 
đây vị trí dự đoán của con người (𝑥𝑖
𝑝′
,𝑦𝑖
𝑝′
) = (𝑥𝑡+∆𝑡 , 𝑦𝑡+∆𝑡) và vận tốc dự đoán 
𝑣𝑖
𝑝′
 √𝑥2̇ 𝑡+∆𝑡 + 𝑦
2̇
𝑡+∆𝑡
 tại thời điểm (t + ∆t). 
42 
2.4.2.6. Quy tắc tương tác 
Mỗi quốc gia đều có một hệ thống cách cư xử, tức là các quy tắc tương tác 
để ứng xử. Do đó, để hành vi của robot di động trong môi trường có con người 
được chấp nhận, nên kết hợp các quy tắc tương tác vào hệ thống điều hướng của 
robot. Kết quả đầu ra của khối kỹ thuật mô hình hóa và khối dự đoán tư thế tiếp 
cận được kết hợp vào sơ đồ điều hướng thông thường của robot di động, đặc biệt 
là hệ thống lập kế hoạch chuyển động. Do đó, toàn bộ hệ thống định vị có thể 
điều hướng robot di động đến vị trí tiếp cận mục tiêu, đồng thời mang lại sự 
thoải mái và an toàn cho những người xung quanh robot. 
2.2.3 Đề xuất hệ thống phát hiện và bám sát nhiều đối tượng 
2.2.3.1 Hệ thống phát hiện nhiều đối tượng sử dụng kỹ thuật học sâu 
Với nhiệm vụ phát hiện đối tượng, bộ phát hiện ứng dụng kỹ thuật xử 
lý ảnh bị ảnh hưởng rất lớn bởi nhiễu của ảnh đầu vào, cách trích chọn đặc 
trưng mà người lập trình lựa chọn. Điều này sẽ làm cho kỹ thuật lập trình trở 
nên phức tạp, khối lượng tính toán lớn khiến cho hệ thống có xu hướng không 
đáp ứng được yêu cầu thời gian thực. Để bộ phát hiện có kết quả tốt hơn, cần 
có một hệ thống có khả năng trích chọn đặc trưng một cách tự động và không 
bị ảnh hưởng bởi nhiễu, và đòi hỏi đáp ứng được yêu cầu thời gian thực. Do 
đó kỹ thuật học sâu được dùng cho việc phát hiện đối tượng. Sơ đồ cấu trúc 
hệ thống thị giác máy tính sử dụng kỹ thuật học sâu như Hình 2.4 
Hình 2.4. Cấu trúc hệ thống thị giác máy tính sử dụng kỹ thuật học sâu 
Mục đích của hệ thống phát hiện nhiều đối tượng là phát hiện những 
đối tượng bao gồm cả con người trong môi trường xung quanh của robot di 
động. Thông tin này rất quan trọng đối với robot để đảm bảo điều hướng 
robot an toàn trong môi trường bất định. Do đó, hệ thống phát hiện cần phải 
nhanh chóng và chính xác. Để thực hiện điều đó, thuật toán (YOLO) do 
Thu nhận ảnh 
Bộ phát hiện sử dụng 
kỹ thuật học sâu 
Kết quả 
phát hiện 
43 
Redmon và cộng sự đề xuất [27] được sử dụng trong luận án. Bởi vì kỹ thuật 
YOLO cân bằng giữa tốc độ và độ chính xác. Kết quả là, đầu ra của hệ thống 
phát hiện nhiều đối tượng là các đối tượng được phát hiện với các hộp giới 
hạn tương ứng. Những thông tin này sau đó được đưa vào hệ thống bám sát 
nhiều đối tượng. 
2.2.3.2 Hệ thống bám sát nhiều đối tượng 
Mục tiêu của hệ thống bám sát là nó có thể kết nối các phát hiện qua 
các khung hình video thành quỹ đạo. Để thực hiện điều này, hệ thống bám sát 
bao gồm hai giai đoạn chính là dự đoán và hiệu chỉnh. Trong luận án đã áp 
dụng thuật toán bám sát nhiều đối tượng có tên là Deep-SORT[10] và [39]. 
Kỹ thuật Deep-SORT sử dụng thuật toán Kalman [43] làm mô hình dự đoán 
chuyển động của đối tượng, Hungarian [20] làm thuật toán ràng buộc dữ liệu, 
và thuật toán học sâu WRNs [49] làm ràng buộc về hình dáng. 
Kỹ thuật Deep-SORT sử dụng bộ lọc Kalman tuyến tính làm mô hình dự 
đoán chuyển động của đối tượng, có ưu điểm là tốc độ cao, tuy nhiên nó có 
nhược điểm là xây dựng các mô hình chuyển động phi tuyến thì độ chính xác 
thấp. Vì vậy trong luận án, tác giả sử dụng bộ lọc Kalman mở rộng EKF [31] 
với kỹ thuật liên kết dữ liệu sâu, như hình 2.5 
Hình 2.5. Mô hình hệ thống bám sát đa mục tiêu sử dụng kỹ thuật học sâu 
Khởi tạo 
và xóa 
các vết 
Thu 
nhận 
ảnh 
Bộ phát 
hiện 
Liên kết 
dữ liệu 
Bám sát 
đối tượng 
WRN 
Bộ lọc 
Kalman 
Thuật toán ràng buộc dữ liệu 
Cơ sở 
dữ liệu 
44 
 Ở đầu ra của bộ phát hiện ở hình 2.5 là các hình chữ nhật có tham số [x, 
y, w, h]. Tham số này sẽ được đưa vào đầu vào hệ thống bám sát nhiều đối 
tượng sử dụng kỹ thuật Deep-sort. Các trạng thái của bộ lọc kalman được biểu 
diễn như sau x = [xc, yc, r, h, vx, vy, vr, vh]
T
, trong đó (xc, yc) là tâm của hình 
chữ nhật bao quanh đối tượng vừa được phát hiện, h là chiều cao của hình chữ 
nhật, r là tỉ số giữa độ rộng và chiều cao của đối tượng, còn vx, vy, vr, vh là vận 
tốc tương ứng của các tham số trên. 
Mô hình chuyển động của hệ thống: Giả sử chuyển động của đối tượng 
ở trong ảnh có vận tốc là hằng số trong khoảng thời gian ∆t đủ nhỏ. Mối liên 
hệ giữa trạng thái của đối tượng ở thời điểm (t+1) và thời điểm t được biểu 
diễn như sau: 
( 1) ( )1 0 0 0 0 0 0
( 1) ( )0 1 0 0 0 0 0
( 1) ( )0 0 1 0 0 0 0
( 1) ( )0 0 0 1 0 0 0
( 1) ( )0 0 0 0 1 0 0 0
( 1) ( )0 0 0 0 0 1 0 0
0 0 0 0 0 0 1 0( 1)
0 0 0 0 0 0 0 1( 1)
x x
y y
r
h
x t x tt
y t y tt
r t r tt
h t h tt
v t v t
v t v t
v t v
v t
(0, )
( )
( )
r
h
N Q
t
v t
Mô hình đo của hệ thống: Từ bộ phát hiện đối tượng ta được lượng đo 
là các thông tin về đối tượng cần bám sát z = [𝑥𝑑, 𝑦𝑑 , 𝑟𝑑, 𝑕𝑑]
𝑇 Vì vậy mối liên 
hệ giữa trạng thái của đối tượng x và các thông tin đo lường z được biểu diễn 
như sau: 
( )
( )
( )( ) 1 0 0 0 0 0 0 0
( )( ) 0 1 0 0 0 0 0 0
(0, )
( )( ) 0 0 1 0 0 0 0 0
( )0 0 0 1 0 0 0 0( )
( )
( )
d
d
xd
yd
r
h
x t
y t
r tx t
h ty t
N R
v tr t
v th t
v t
v t
45 
Quá trình ràng buộc dữ liệu được thực hiện như sau: Để gán các đối 
tượng phát hiện được với các mục tiêu hiện tại, luận án áp dụng thuật toán 
Hungarian kết hợp với thuật toán IOU cụ thể như sau: Mỗi đối tượng ở frame 
hiện tại là các hình chữ nhật bao quanh đối tượng (hộp giới hạn - bounding 
box) được dự đoán thông qua bộ lọc Kalman. Sau đó, tại frame tiếp theo, với 
mỗi đối tượng phát hiện được (các hình chữ nhật bao quanh đối tượng từ bộ 
phát hiện áp dụng thuật toán YOLO) sẽ được tính khoảng cách IOU với tất cả 
các đối tượng được dự đoán từ các mục tiêu hiện tại. Ma trận gán này sau đó 
sẽ được giải tối ưu qua thuật toán Hungarian để gán các đối tượng phát hiện 
được với các mục tiêu hiện tại. 
Khi sử dụng thuật toán IOU, bằng cách đặt ngưỡng IOU nhỏ nhất, ta có thể 
loại bỏ sự gán của mỗi đối tượng phát hiện được với các đối tượng dự đoán qua 
bộ lọc Kalman mà có vùng phủ chồng nhỏ hơn khoảng IOU nhỏ nhất. 
Hơn nữa, khi sử dụng khoảng cách IOU của mỗi hình chữ nhật bao 
quanh đối tượng, nó sẽ ngầm xử lý che khuất trong khoảng thời gian ngắn 
bằng cách bỏ qua đối tượng. Cụ thể hơn, khi một đối tượng bị che khuất bởi 
một đối tượng khác, thì chỉ sự che khuất được phát hiện, vì khoảng cách IOU 
thích hợp cho việc phát hiện với quy mô tương tự, điều này cho phép cả đối 
tượng ẩn được cập nhật với phát hiện trong khi đối tượng che khuất không bị 
ảnh hưởng vì không có sự gán được thực hiện. 
Quá trình tạo một theo dõi mới hoặc xóa một theo dõi cũ đã ra khỏi 
màn hình: Khi các đối tượng đi vào hoặc rời khỏi vùng quan sát, thì hệ thống 
bám sát đa mục tiêu cần phải có khả năng khởi tạo hoặc xóa định danh của 
các đối tượng tương ứng. 
Trong trường hợp có đối tượng mới đi vào trong ảnh, bộ phát hiện 
YOLO phát hiện được đối tượng, thông tin này sẽ được truyền sang hệ thống 
bám sát đa đối tượng, lúc này hệ thống bám khởi tạo một vết bám mới bằng 
46 
cách tạo ra một hình chữ nhật bao quanh đối tượng với vận tốc lúc này được 
đặt bằng 0, sau đó thành phần vận tốc này được cập nhật theo thời gian, và sự 
chuyển động của đối tượng trong ảnh. 
Trong trường hợp đối tượng đã rời khỏi ảnh, tương ứng với đó là bộ phát 
hiện YOLO không phát hiện được đối tượng nữa, thì lúc này yêu cầu hệ thống 
bám sát đa mục tiêu sẽ kết thúc bám đối tượng tương ứng bằng việc xóa vết 
bám của đối tượng. Trường hợp đối tượng bị che khuất sau khoảng thời gian 
dài, khi đối tượng xuất hiện trở lại thì yêu cầu hệ thống phải khôi phục được 
thông tin định danh của đối tượng. Để giải quyết các vấn đề trên, luận án 
nghiên cứu áp dụng thuật toán ràng buộc dữ liệu sâu dùng mạng WRN. 
Kỹ thuật SORT được sử dụng cho hệ thống bám sát nhiều đối tượng, 
với tập trung vào sự đơn giản, hiệu quả nhằm nâng cao tốc độ của thuật toán. 
Tuy nhiên khi sử dụng kỹ thuật SORT thì hệ thống bám có một số nhược 
điểm là khi đối tượng đi chéo nhau hoặc che khuất trong thời gian tương đối 
dài thì dễ xẩy ra sự switch ID của đối tượng bám. Vì vậy để cải thiện điều này 
luận án đề xuất cải tiến SORT thành Deep-sort bằng việc sử dụng thêm thông 
tin chuyển động và ngoại hình. 
2.3.2.1 Bộ lọc Kalman mở rộng 
Hãy giả định rằng hệ thống ước tính trạng thái x n, ta có phương trình 
sai phân ngẫu nhiên phi tuyến sau: 
 xk = f(xk-1, uk, wk-1) (2.6) 
Và phép đo z 
m
 được mô tả bởi phương trình đo sau: 
 zk = h(xk , vk) (2.7) 
Trong đó: xk là véc tơ trạng thái của hệ thống tại thời điểm k; uk là véc tơ 
miêu tả tín hiệu đầu vào của hệ thống tại thời điểm k; f hàm phi tuyến mô tả 
liên kết giữa các biến trạng thái ở thời điểm k-1 với các biến trạng thái ở thời 
điểm hiện tại k (khi có tín hiệu tác động lên hệ thống uk và tác động của nhiễu 
47 
wk); h là hàm phi tuyến mô tả mối liên hệ giữa trạng thái xk với kết quả đo zk. 
Mỗi phần tử trong véc tơ zk chứa một tín hiệu quan sát được từ cảm biến tại 
thời điểm k; wk là một biến ngẫu nhiên biểu diễn cho nhiễu của hệ thống; vk 
cũng là biến ngẫu nhiên biểu diễn cho nhiễu đo lường. 
Các biến ngẫu nhiên wk và vk được giả định là độc lập với nhau, dạng tạp 
trắng và có phân bố xác suất chuẩn: 
 wk ~ N(0,Qk) ; vk~ N(0,Rk); E(wk, vk) = 0 (2.8) 
Quá trình thực hiện của bộ lọc EKF là một vòng lặp đệ quy với 2 giai 
đoạn: pha dự đoán (với các phương trình cập nhật thời gian) và pha hiệu 
chỉnh (với các phương trình cập nhật số liệu). 
Pha dự đoán với các phương trình cập nhật (Time update): 
 �̂�𝑘
− 𝑓(�̂�𝑘−1 , 𝑢𝑘 , ) (2.9) 
 Pk
− FkPk−1Fk
T+ WkQk−1Wk
T (2.10) 
Pha hiệu chỉnh với các phương trình cập nhật phép đo: 
 𝐾𝑘=𝑃𝑘
−𝐻𝑘
𝑇(𝐻𝑘𝑃𝑘
−𝐻𝑘
𝑇 +𝑉𝑘𝑅𝑘𝑉𝑘
𝑇)−1 (2.11) 
�̂�𝑘 �̂�𝑘
−+𝐾𝑘(𝑧𝑘 − 𝑕(�̂�𝑘
−, )) (2.12) 
𝑃𝑘 (𝐼 − 𝐾𝑘𝐻𝑘)𝑃𝑘
− (2.13) 
Trong đó: �̂�𝑘
− 
n
 là ước lượng trạng thái tiên nghiệm ở bước k nhận 
được từ tiên nghiệm quá trình ở bước k-1; �̂�𝑘 
n
 là ước lượng trạng thái hậu 
nghiệm ở bước k nhận được sau phép đo zk; 𝑃𝑘
− là ma trận hiệp biến của sai 
số ước lượng trạng thái tiên nghiệm; 𝑃𝑘 là ma trận hiệp biến của sai số ước 
lượng trạng thái hậu nghiệm; 𝑄𝑘 là ma trận hiệp phương sai nhiễu đầu vào 
(nhiễu quá trình); 𝑅𝑘 là ma trận hiệp phương sai của nhiễu đo; 𝐾𝑘 là hệ số lọc 
Kalman; I là ma trận đơn vị; Fk là ma trận Jacobian của các đạo hàm riêng của 
f theo x; Wk là ma trận Jacobian của đạo hàm riêng của f theo nhiễu w; Hk là 
ma trận Jacobian của các đạo hàm riêng của h theo x; Vk là ma trận Jacobian 
48 
của đạo hàm riêng của h theo nhiễu v; 
𝐹𝑘 
𝜕𝑓(𝑥𝑘−1 ,𝑢𝑘)
𝜕𝑥𝑘−1
 (2.14) 
𝑊𝑘 
𝜕𝑓(𝑥𝑘−1 ,𝑢𝑘)
𝜕𝑤
 (2.15) 
𝐻𝑘 
𝜕𝑕(𝑥𝑘
−)
𝜕𝑥𝑘
 (2.16) 
𝑉𝑘 
𝜕𝑕(𝑥𝑘 ,𝑢𝑘)
𝜕𝑣
 (2.17) 
Dựa trên các số liệu đo được zk, bộ lọc Kalman tìm được một hệ số lọc 
Kk trong mỗi chu kỳ lấy mẫu tín hiệu đo thuộc một vòng lặp đệ quy, sao cho 
ước lượng trạng thái của hệ gần với giá trị thực nhất. 
 2.3.2.2 Kỹ thuật học sâu Wide Residual Networks 
Trong luận án kỹ thuật học sâu WRNs được sử dụng trong quá trình ràng 
buộc dữ liệu và nhận dạng người. Các thành phần chính của WRNs được 
miêu tả ở Hình 2.6. 
Hình 2.6. Sơ đồ khối tổng quan kỹ thuật học sâu WRNs 
 Khối dư với ánh xạ nhận dạng có thể được biểu diễn bằng công thức sau: 
𝑥𝑙+1 = 𝑥𝑙 + Ϝ (𝑥𝑙 ,𝑤𝑙 ) 
 Trong đó 𝑥𝑙+1 và 𝑥𝑙 là đầu vào và đầu ra của đơn vị thứ l trong mạng, F 
là hàm dư và 𝑤𝑙 là các tham số của khối. Mạng phần dư bao gồm các khối 
phần dư xếp chồng lên nhau một cách tuần tự. Luận án sử dụng một mạng 
rộng dư [49] với hai lớp chập, theo sau là sáu khối dư đã được huấn luyện với 
bộ cơ sở dữ liệu đầu vào mạng rộng dư được lấy từ 1.100.000 ảnh của 1.261 
49 
người đi bộ. 
2.3.2.3 Kỹ thuật ràng buộc dữ liệu Hungarian 
Có nhiều phương pháp sử dụng làm thuật toán ràng buộc dữ liệu, như 
Hungarian method, Global nearest neighbor, ... Trong luận án, tác giả sử dụng 
thuật toán Hungarian method làm thuật toán ràng buộc dữ liệu. 
 Thuật toán Hungarian là thuật toán gán các phát hiện tới các vết trong 
tiến trình bám nhiều đối tượng. Trong trường hợp này, khoảng cách giữa các 
đối tượng phát hiện được trong hai frame liên tiếp (frame thứ k-1 và frame 
thứ k). Thuật toán Hungarian trong bám đối tượng gồm các bước như sau: 
Bước 1: Trừ cực tiểu hàng. Trong mỗi hàng, ta tìm phần tử nhỏ nhất sau 
đó lấy mỗi phần tử trong hàng trừ đi phần tử nhỏ nhất đó. 
Bước 2: Trừ cực tiểu cột. Trong mỗi cột, tìm phần tử nhỏ nhất sau đó lấy 
mỗi phần tử trong cột đó trừ đi phần tử nhỏ nhất. 
Bước 3: Kẻ các đường thẳng song song với các hàng và cột sao cho 
bao tất cả các phần tử 0 ở mỗi hàng và cột sao cho số đường kẻ được là ít 
nhất. Nếu số đường thẳng kẻ được ít nhất bằng số hàng (số cột) thì bài 
toán đã có lời giải tối ưu. Nếu số đường kẻ được nhỏ hơn số hàng số cột 
thì chuyển sang bước 4. 
Bước 4: Tạo các số 0 bổ sung. Tìm phần tử nhỏ nhất không được bao bởi 
đường thẳng nào trong bước 3, sau đó lấy tất cả các phần tử chưa bị gạch trừ 
đi số đó, các số bị gạch bởi hai đường thẳng cộng với số đó, các số còn lại giữ 
nguyên. Tiếp tục thực hiện lại từ bước 3 cho đến khi tìm được lời giải tối ưu. 
Trong thuật toán Hungarian bước 1 và 2 chỉ thực hiện một lần, trong khi 
bước 3 và bước 4 có thể được thực hiện nhiều lần cho đến khi tìm được lời 
giải tối ưu. 
Với kỹ thuật ràng buộc dữ liệu dùng thuật toán Hungarian ta có thể liên 
50 
kết các đối tượng qua các frame liên tiếp (frame - to - frame). Trong trường 
hợp đối tượng bị che khuất mà bộ phát hiện không phát hiện được, l
File đính kèm:
luan_an_nghien_cuu_phat_trien_he_thong_dieu_huong_thong_minh.pdf
Trích yếu Luận án NCS Đỗ Nam Thắng.doc
TomTat LuanAn NCS Đỗ Nam Thắng_Tiếng Việt.pdf
TomTat LuanAn NCS Do Nam Thang_English.pdf
Thông tin kết luận mới của luận án-NCS Đỗ Nam Thắng.doc