Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phát triển hệ thống điều hướng thông minh cho robot tự hành trong môi trường bất định
ác đối tượng xung quanh, đặc biệt là các đối tượng khác, chẳng
hạn như tranh vẽ, màn hình quảng cáo, ti vi, tủ lạnh, v.v. Ngoài ra, trong [12] các
tác giả phát hiện ra rằng 70% người trong môi trường muốn thành lập nhóm để
tương tác với nhau. Do đó, sẽ không đủ hiệu quả nếu robot di động không xem
xét những thông tin này. Vì vậy, để đảm bảo sự an toàn và thoải mái cho con
38
người, robot di động cần nhận thức được các bối cảnh tương tác này, trích xuất
các tính năng của chúng và kết hợp chúng vào hệ thống điều hướng của robot di
động. Tương tác của con người trong môi trường này lấy con người làm trung
tâm, có thể được chia thành hai loại bao gồm tương tác nhóm người hoặc tương
tác người–sự vật, được trình bày trong [56].
Phát hiện tƣơng tác con ngƣời - sự vật: Robot cần ước tính tương tác
giữa người và sự vật, bởi vì thông tin này là chìa khóa để xác định không gian
tương tác giữa con người và các sự vật gây chú ý.
Giả định rằng người , p pi i ip x y , chú ý tới sự vật
( ),
obj obj
j j jobj x y như minh họa trong hình 2.2 (e). Đặt các tham số trích
chọn từ không gian tương tác giữa người và sự vật là 0 , , o om m m mo x y r .
Ở đó mo là không gian tương tác giữa người và sự vật trong lân cận robot,
, o om mx y và
0
mr là tâm và bán kính của không gian tương tác giữa người và
đối tượng. Tâm và bán kính được tính theo công thức
(x , y ) ( , )
2 2
p obj p obj
i j i jo o
m m
x x y y
(2.1)
𝑟𝑚
𝑜 = √
(𝑥
𝑖
𝑝
− 𝑥
𝑗
𝑜𝑏𝑗
)2
4
+
(𝑦
𝑖
𝑝
− 𝑦
𝑗
𝑜𝑏𝑗
)2
4
(2.2)
Lưu ý rằng không gian tương tác người-sự vật được tạo ra bởi ghép đôi
của một người và một sự vật được người này chú ý. Hình 2.2 (f) cho thấy một
ví dụ về không gian tương tác giữa hai con người và sự vật, trong đó hai con
người tương tác với một sự vật được chú ý. Trong ví dụ này, hai người cũng
hình thành một nhóm người được nghiên cứu trong phần tiếp theo
39
Hình 2.2. Trung tâm và hình dạng (màu đỏ tía) của không gian tương tác. (a)
Nhóm của hai người đứng. (b) Nhóm bốn người đứng. (c) Nhóm hai người di
chuyển. (d) Nhóm ba người di chuyển. (e) Không gian tương tác của con
người-sự vật. (f) Không gian tương tác xã hội của 2 người –sự vật.
Thuật toán phát hiện tương tác giữa người và sự vật bao gồm hai bước:
nhận dạng sự vật và phát hiện tương tác người – sự vật. Đầu ra của thuật toán
là một số tương tác giữa con người và sự vật được phát hiện O =
{𝑜1 ,𝑜2 , 𝑜𝑚}, trong đó 𝑜𝑚 là tương tác thứ m giữa người và vật với bộ thông
số 𝑜𝑚 = (𝑥𝑚
𝑜 , 𝑦𝑚
𝑜 , 𝜃𝑚
𝑜 , 𝑑𝑚
𝑜 ) trong đó (𝑥𝑚
𝑜 , 𝑦𝑚
𝑜) là điểm trung tâm, 𝑑𝑚
𝑜 và 𝜃𝑚
𝑜
lần lượt là độ lớn và hướng của vectơ chiếu từ người đến vật thể.
Phát hiện tƣơng tác nhóm ngƣời:
Một số phương pháp phát hiện nhóm người tương tác chỉ sử dụng
thông tin định hướng và vị trí không gian của con người tĩnh, do đó đầu ra của
của thuật toán chỉ là số lượng nhóm người. Trong luận án phương pháp phát
hiện nhóm người tương tác ngoài sử dụng các thông tin định hướng và không
gian của con người thì phương pháp đã sử dụng thêm thông tin chuyển động
của con người để làm cho mô hình phù hợp với môi trường động.
40
Cho 1 2 , ,. . . , kG g g g là số lượng các nhóm người được phát
hiện trong vùng lân cận của robot; mỗi nhóm người gk có một bộ tham số
, , , , g g g g gk k k k k kg x y v r trong đó , g gk kx y là điểm trung tâm, gk là
hướng,
g
kv là vận tốc, và
g
kr là bán kính tương tác của nhóm người. Đầu ra
của thuật toán là số lượng nhóm người và điểm trung tâm của nó. Thuật toán
phát hiện nhóm tương tác nhóm người được trình bày chi tiết trong [55].
2.4.2.4. Khối kỹ thuật mô hình hóa
Một số kỹ thuật đã được sử dụng để mô hình hóa các tính năng tương
tác giữa con người và các đối tượng trong [25], [26], [53], [54]. Trong nghiên
cứu này, môi trường là không gian tương tác xung quanh một người, một
nhóm người hoặc tương tác giữa con người với các đối tượng khác được tạo
ra bằng cách kết hợp các không gian cá nhân mở rộng của con người và
không gian tương tác trong vùng lân cận của robot. Hàm 𝐹𝑑𝑠𝑧(x, y) được tính
như sau:
𝐹𝑑𝑠𝑧 (x, y) = max (𝑤1𝐹𝑒𝑝𝑠(𝑥, 𝑦),𝑤2𝐹𝑠𝑖𝑠(𝑥, 𝑦)) (2.3)
𝐹𝑑𝑠𝑧(x, y) đại diện cho khu vực tương tác, (x, y) là tọa độ của một ô
trong bản đồ lưới 𝑀𝑛,𝑚 , 𝑤1 là trọng số của không gian cá nhân mở rộng và
𝑤2 là trọng số của không gian tương tác.
Hàm 𝐹𝑠𝑖𝑠(𝑥, 𝑦) đại diện cho không gian tương tác của tất cả các tương
tác trong vùng lân cận của robot được tính như sau:
𝐹𝑠𝑖𝑠(𝑥, 𝑦) = max (𝑓1
𝑔(𝑥,𝑦), , 𝑓𝐾
𝑔(𝑥, 𝑦)) (2.4)
Hàm 𝐹𝑒𝑝𝑠(𝑥, 𝑦) đại diện cho không gian cá nhân mở rộng của tất cả N
người trong vùng lân cận của robot, được tính như sau:
𝐹𝑒𝑝𝑠(𝑥, 𝑦) = max (𝑓1
𝑒𝑝𝑠(𝑥,𝑦), , 𝑓𝑁
𝑒𝑝𝑠(𝑥, 𝑦)) (2.5)
2.4.2.5. Khối dự đoán tư thế tiếp cận
Khối chức năng này được sử dụng để ước tính tư thế tiếp cận phù hợp
bao gồm vị trí tiếp cận, định hướng và vận tốc và của robot di động với một
41
người, tương tác giữa người với đối tượng hoặc một nhóm người. Tư thế tiếp
cận 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 = (𝑥𝑞 ,𝑦𝑞 ,𝜃𝑞) ước tính trong Phần III-E1[57] có thể được áp dụng
trực tiếp khi con người đứng yên (con người đứng hoặc ngồi). Tuy nhiên, đối
với con người đang di chuyển, robot phải dự đoán tư thế tiếp cận cùng với
chuyển động của con người, để có thể bắt kịp và tiếp cận đúng cách.
Hình 2.3. Dự đoán tư thế tiếp cận của một người đang di chuyển 𝑝𝑖 .
Tư thế tiếp cận hiện tại là 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 (t), tư thế tiếp cận dự đoán 𝑞𝑚ụ𝑐 𝑡𝑖ê𝑢 (t + ∆t)
Đối với con người đang di chuyển, dự đoán tư thế con người đóng một
vai trò quan trọng vì robot sử dụng thông tin này để dự đoán tư thế tiếp cận và
quyết định xem nó có tiếp cận con người hay không. Ý tưởng cơ bản của
thuật toán này là sử dụng bộ lọc Kalman [43] với mô hình chuyển động dựa
trên vận tốc không đổi của con người. Gọi 𝑋𝑡 = (𝑥𝑡 ,𝑦𝑡 , 𝑥�̇� , 𝑦�̇�)
𝑇 là vector trạng
thái của một người 𝑝𝑖 tại thời điểm t. Vectơ trạng thái dự đoán của người đó
𝑝𝑖 tại thời điểm (t + ∆t) là 𝑋𝑡+𝛥𝑡 = (𝑥𝑡+𝛥𝑡 , 𝑦𝑡+𝛥𝑡 , �̇�𝑡+𝛥𝑡 , �̇�𝑡+𝛥𝑡)
𝑇. Do đó, các
trạng thái dự đoán của con người tại thời điểm (t + ∆t) là 𝑝𝑖
′ (𝑥𝑖
𝑝′
, 𝑦𝑖
𝑝′
, 𝜃𝑖
𝑝′
,𝑣𝑖
𝑝′
), ở
đây vị trí dự đoán của con người (𝑥𝑖
𝑝′
,𝑦𝑖
𝑝′
) = (𝑥𝑡+∆𝑡 , 𝑦𝑡+∆𝑡) và vận tốc dự đoán
𝑣𝑖
𝑝′
√𝑥2̇ 𝑡+∆𝑡 + 𝑦
2̇
𝑡+∆𝑡
tại thời điểm (t + ∆t).
42
2.4.2.6. Quy tắc tương tác
Mỗi quốc gia đều có một hệ thống cách cư xử, tức là các quy tắc tương tác
để ứng xử. Do đó, để hành vi của robot di động trong môi trường có con người
được chấp nhận, nên kết hợp các quy tắc tương tác vào hệ thống điều hướng của
robot. Kết quả đầu ra của khối kỹ thuật mô hình hóa và khối dự đoán tư thế tiếp
cận được kết hợp vào sơ đồ điều hướng thông thường của robot di động, đặc biệt
là hệ thống lập kế hoạch chuyển động. Do đó, toàn bộ hệ thống định vị có thể
điều hướng robot di động đến vị trí tiếp cận mục tiêu, đồng thời mang lại sự
thoải mái và an toàn cho những người xung quanh robot.
2.2.3 Đề xuất hệ thống phát hiện và bám sát nhiều đối tượng
2.2.3.1 Hệ thống phát hiện nhiều đối tượng sử dụng kỹ thuật học sâu
Với nhiệm vụ phát hiện đối tượng, bộ phát hiện ứng dụng kỹ thuật xử
lý ảnh bị ảnh hưởng rất lớn bởi nhiễu của ảnh đầu vào, cách trích chọn đặc
trưng mà người lập trình lựa chọn. Điều này sẽ làm cho kỹ thuật lập trình trở
nên phức tạp, khối lượng tính toán lớn khiến cho hệ thống có xu hướng không
đáp ứng được yêu cầu thời gian thực. Để bộ phát hiện có kết quả tốt hơn, cần
có một hệ thống có khả năng trích chọn đặc trưng một cách tự động và không
bị ảnh hưởng bởi nhiễu, và đòi hỏi đáp ứng được yêu cầu thời gian thực. Do
đó kỹ thuật học sâu được dùng cho việc phát hiện đối tượng. Sơ đồ cấu trúc
hệ thống thị giác máy tính sử dụng kỹ thuật học sâu như Hình 2.4
Hình 2.4. Cấu trúc hệ thống thị giác máy tính sử dụng kỹ thuật học sâu
Mục đích của hệ thống phát hiện nhiều đối tượng là phát hiện những
đối tượng bao gồm cả con người trong môi trường xung quanh của robot di
động. Thông tin này rất quan trọng đối với robot để đảm bảo điều hướng
robot an toàn trong môi trường bất định. Do đó, hệ thống phát hiện cần phải
nhanh chóng và chính xác. Để thực hiện điều đó, thuật toán (YOLO) do
Thu nhận ảnh
Bộ phát hiện sử dụng
kỹ thuật học sâu
Kết quả
phát hiện
43
Redmon và cộng sự đề xuất [27] được sử dụng trong luận án. Bởi vì kỹ thuật
YOLO cân bằng giữa tốc độ và độ chính xác. Kết quả là, đầu ra của hệ thống
phát hiện nhiều đối tượng là các đối tượng được phát hiện với các hộp giới
hạn tương ứng. Những thông tin này sau đó được đưa vào hệ thống bám sát
nhiều đối tượng.
2.2.3.2 Hệ thống bám sát nhiều đối tượng
Mục tiêu của hệ thống bám sát là nó có thể kết nối các phát hiện qua
các khung hình video thành quỹ đạo. Để thực hiện điều này, hệ thống bám sát
bao gồm hai giai đoạn chính là dự đoán và hiệu chỉnh. Trong luận án đã áp
dụng thuật toán bám sát nhiều đối tượng có tên là Deep-SORT[10] và [39].
Kỹ thuật Deep-SORT sử dụng thuật toán Kalman [43] làm mô hình dự đoán
chuyển động của đối tượng, Hungarian [20] làm thuật toán ràng buộc dữ liệu,
và thuật toán học sâu WRNs [49] làm ràng buộc về hình dáng.
Kỹ thuật Deep-SORT sử dụng bộ lọc Kalman tuyến tính làm mô hình dự
đoán chuyển động của đối tượng, có ưu điểm là tốc độ cao, tuy nhiên nó có
nhược điểm là xây dựng các mô hình chuyển động phi tuyến thì độ chính xác
thấp. Vì vậy trong luận án, tác giả sử dụng bộ lọc Kalman mở rộng EKF [31]
với kỹ thuật liên kết dữ liệu sâu, như hình 2.5
Hình 2.5. Mô hình hệ thống bám sát đa mục tiêu sử dụng kỹ thuật học sâu
Khởi tạo
và xóa
các vết
Thu
nhận
ảnh
Bộ phát
hiện
Liên kết
dữ liệu
Bám sát
đối tượng
WRN
Bộ lọc
Kalman
Thuật toán ràng buộc dữ liệu
Cơ sở
dữ liệu
44
Ở đầu ra của bộ phát hiện ở hình 2.5 là các hình chữ nhật có tham số [x,
y, w, h]. Tham số này sẽ được đưa vào đầu vào hệ thống bám sát nhiều đối
tượng sử dụng kỹ thuật Deep-sort. Các trạng thái của bộ lọc kalman được biểu
diễn như sau x = [xc, yc, r, h, vx, vy, vr, vh]
T
, trong đó (xc, yc) là tâm của hình
chữ nhật bao quanh đối tượng vừa được phát hiện, h là chiều cao của hình chữ
nhật, r là tỉ số giữa độ rộng và chiều cao của đối tượng, còn vx, vy, vr, vh là vận
tốc tương ứng của các tham số trên.
Mô hình chuyển động của hệ thống: Giả sử chuyển động của đối tượng
ở trong ảnh có vận tốc là hằng số trong khoảng thời gian ∆t đủ nhỏ. Mối liên
hệ giữa trạng thái của đối tượng ở thời điểm (t+1) và thời điểm t được biểu
diễn như sau:
( 1) ( )1 0 0 0 0 0 0
( 1) ( )0 1 0 0 0 0 0
( 1) ( )0 0 1 0 0 0 0
( 1) ( )0 0 0 1 0 0 0
( 1) ( )0 0 0 0 1 0 0 0
( 1) ( )0 0 0 0 0 1 0 0
0 0 0 0 0 0 1 0( 1)
0 0 0 0 0 0 0 1( 1)
x x
y y
r
h
x t x tt
y t y tt
r t r tt
h t h tt
v t v t
v t v t
v t v
v t
(0, )
( )
( )
r
h
N Q
t
v t
Mô hình đo của hệ thống: Từ bộ phát hiện đối tượng ta được lượng đo
là các thông tin về đối tượng cần bám sát z = [𝑥𝑑, 𝑦𝑑 , 𝑟𝑑, 𝑑]
𝑇 Vì vậy mối liên
hệ giữa trạng thái của đối tượng x và các thông tin đo lường z được biểu diễn
như sau:
( )
( )
( )( ) 1 0 0 0 0 0 0 0
( )( ) 0 1 0 0 0 0 0 0
(0, )
( )( ) 0 0 1 0 0 0 0 0
( )0 0 0 1 0 0 0 0( )
( )
( )
d
d
xd
yd
r
h
x t
y t
r tx t
h ty t
N R
v tr t
v th t
v t
v t
45
Quá trình ràng buộc dữ liệu được thực hiện như sau: Để gán các đối
tượng phát hiện được với các mục tiêu hiện tại, luận án áp dụng thuật toán
Hungarian kết hợp với thuật toán IOU cụ thể như sau: Mỗi đối tượng ở frame
hiện tại là các hình chữ nhật bao quanh đối tượng (hộp giới hạn - bounding
box) được dự đoán thông qua bộ lọc Kalman. Sau đó, tại frame tiếp theo, với
mỗi đối tượng phát hiện được (các hình chữ nhật bao quanh đối tượng từ bộ
phát hiện áp dụng thuật toán YOLO) sẽ được tính khoảng cách IOU với tất cả
các đối tượng được dự đoán từ các mục tiêu hiện tại. Ma trận gán này sau đó
sẽ được giải tối ưu qua thuật toán Hungarian để gán các đối tượng phát hiện
được với các mục tiêu hiện tại.
Khi sử dụng thuật toán IOU, bằng cách đặt ngưỡng IOU nhỏ nhất, ta có thể
loại bỏ sự gán của mỗi đối tượng phát hiện được với các đối tượng dự đoán qua
bộ lọc Kalman mà có vùng phủ chồng nhỏ hơn khoảng IOU nhỏ nhất.
Hơn nữa, khi sử dụng khoảng cách IOU của mỗi hình chữ nhật bao
quanh đối tượng, nó sẽ ngầm xử lý che khuất trong khoảng thời gian ngắn
bằng cách bỏ qua đối tượng. Cụ thể hơn, khi một đối tượng bị che khuất bởi
một đối tượng khác, thì chỉ sự che khuất được phát hiện, vì khoảng cách IOU
thích hợp cho việc phát hiện với quy mô tương tự, điều này cho phép cả đối
tượng ẩn được cập nhật với phát hiện trong khi đối tượng che khuất không bị
ảnh hưởng vì không có sự gán được thực hiện.
Quá trình tạo một theo dõi mới hoặc xóa một theo dõi cũ đã ra khỏi
màn hình: Khi các đối tượng đi vào hoặc rời khỏi vùng quan sát, thì hệ thống
bám sát đa mục tiêu cần phải có khả năng khởi tạo hoặc xóa định danh của
các đối tượng tương ứng.
Trong trường hợp có đối tượng mới đi vào trong ảnh, bộ phát hiện
YOLO phát hiện được đối tượng, thông tin này sẽ được truyền sang hệ thống
bám sát đa đối tượng, lúc này hệ thống bám khởi tạo một vết bám mới bằng
46
cách tạo ra một hình chữ nhật bao quanh đối tượng với vận tốc lúc này được
đặt bằng 0, sau đó thành phần vận tốc này được cập nhật theo thời gian, và sự
chuyển động của đối tượng trong ảnh.
Trong trường hợp đối tượng đã rời khỏi ảnh, tương ứng với đó là bộ phát
hiện YOLO không phát hiện được đối tượng nữa, thì lúc này yêu cầu hệ thống
bám sát đa mục tiêu sẽ kết thúc bám đối tượng tương ứng bằng việc xóa vết
bám của đối tượng. Trường hợp đối tượng bị che khuất sau khoảng thời gian
dài, khi đối tượng xuất hiện trở lại thì yêu cầu hệ thống phải khôi phục được
thông tin định danh của đối tượng. Để giải quyết các vấn đề trên, luận án
nghiên cứu áp dụng thuật toán ràng buộc dữ liệu sâu dùng mạng WRN.
Kỹ thuật SORT được sử dụng cho hệ thống bám sát nhiều đối tượng,
với tập trung vào sự đơn giản, hiệu quả nhằm nâng cao tốc độ của thuật toán.
Tuy nhiên khi sử dụng kỹ thuật SORT thì hệ thống bám có một số nhược
điểm là khi đối tượng đi chéo nhau hoặc che khuất trong thời gian tương đối
dài thì dễ xẩy ra sự switch ID của đối tượng bám. Vì vậy để cải thiện điều này
luận án đề xuất cải tiến SORT thành Deep-sort bằng việc sử dụng thêm thông
tin chuyển động và ngoại hình.
2.3.2.1 Bộ lọc Kalman mở rộng
Hãy giả định rằng hệ thống ước tính trạng thái x n, ta có phương trình
sai phân ngẫu nhiên phi tuyến sau:
xk = f(xk-1, uk, wk-1) (2.6)
Và phép đo z
m
được mô tả bởi phương trình đo sau:
zk = h(xk , vk) (2.7)
Trong đó: xk là véc tơ trạng thái của hệ thống tại thời điểm k; uk là véc tơ
miêu tả tín hiệu đầu vào của hệ thống tại thời điểm k; f hàm phi tuyến mô tả
liên kết giữa các biến trạng thái ở thời điểm k-1 với các biến trạng thái ở thời
điểm hiện tại k (khi có tín hiệu tác động lên hệ thống uk và tác động của nhiễu
47
wk); h là hàm phi tuyến mô tả mối liên hệ giữa trạng thái xk với kết quả đo zk.
Mỗi phần tử trong véc tơ zk chứa một tín hiệu quan sát được từ cảm biến tại
thời điểm k; wk là một biến ngẫu nhiên biểu diễn cho nhiễu của hệ thống; vk
cũng là biến ngẫu nhiên biểu diễn cho nhiễu đo lường.
Các biến ngẫu nhiên wk và vk được giả định là độc lập với nhau, dạng tạp
trắng và có phân bố xác suất chuẩn:
wk ~ N(0,Qk) ; vk~ N(0,Rk); E(wk, vk) = 0 (2.8)
Quá trình thực hiện của bộ lọc EKF là một vòng lặp đệ quy với 2 giai
đoạn: pha dự đoán (với các phương trình cập nhật thời gian) và pha hiệu
chỉnh (với các phương trình cập nhật số liệu).
Pha dự đoán với các phương trình cập nhật (Time update):
�̂�𝑘
− 𝑓(�̂�𝑘−1 , 𝑢𝑘 , ) (2.9)
Pk
− FkPk−1Fk
T+ WkQk−1Wk
T (2.10)
Pha hiệu chỉnh với các phương trình cập nhật phép đo:
𝐾𝑘=𝑃𝑘
−𝐻𝑘
𝑇(𝐻𝑘𝑃𝑘
−𝐻𝑘
𝑇 +𝑉𝑘𝑅𝑘𝑉𝑘
𝑇)−1 (2.11)
�̂�𝑘 �̂�𝑘
−+𝐾𝑘(𝑧𝑘 − (�̂�𝑘
−, )) (2.12)
𝑃𝑘 (𝐼 − 𝐾𝑘𝐻𝑘)𝑃𝑘
− (2.13)
Trong đó: �̂�𝑘
−
n
là ước lượng trạng thái tiên nghiệm ở bước k nhận
được từ tiên nghiệm quá trình ở bước k-1; �̂�𝑘
n
là ước lượng trạng thái hậu
nghiệm ở bước k nhận được sau phép đo zk; 𝑃𝑘
− là ma trận hiệp biến của sai
số ước lượng trạng thái tiên nghiệm; 𝑃𝑘 là ma trận hiệp biến của sai số ước
lượng trạng thái hậu nghiệm; 𝑄𝑘 là ma trận hiệp phương sai nhiễu đầu vào
(nhiễu quá trình); 𝑅𝑘 là ma trận hiệp phương sai của nhiễu đo; 𝐾𝑘 là hệ số lọc
Kalman; I là ma trận đơn vị; Fk là ma trận Jacobian của các đạo hàm riêng của
f theo x; Wk là ma trận Jacobian của đạo hàm riêng của f theo nhiễu w; Hk là
ma trận Jacobian của các đạo hàm riêng của h theo x; Vk là ma trận Jacobian
48
của đạo hàm riêng của h theo nhiễu v;
𝐹𝑘
𝜕𝑓(𝑥𝑘−1 ,𝑢𝑘)
𝜕𝑥𝑘−1
(2.14)
𝑊𝑘
𝜕𝑓(𝑥𝑘−1 ,𝑢𝑘)
𝜕𝑤
(2.15)
𝐻𝑘
𝜕(𝑥𝑘
−)
𝜕𝑥𝑘
(2.16)
𝑉𝑘
𝜕(𝑥𝑘 ,𝑢𝑘)
𝜕𝑣
(2.17)
Dựa trên các số liệu đo được zk, bộ lọc Kalman tìm được một hệ số lọc
Kk trong mỗi chu kỳ lấy mẫu tín hiệu đo thuộc một vòng lặp đệ quy, sao cho
ước lượng trạng thái của hệ gần với giá trị thực nhất.
2.3.2.2 Kỹ thuật học sâu Wide Residual Networks
Trong luận án kỹ thuật học sâu WRNs được sử dụng trong quá trình ràng
buộc dữ liệu và nhận dạng người. Các thành phần chính của WRNs được
miêu tả ở Hình 2.6.
Hình 2.6. Sơ đồ khối tổng quan kỹ thuật học sâu WRNs
Khối dư với ánh xạ nhận dạng có thể được biểu diễn bằng công thức sau:
𝑥𝑙+1 = 𝑥𝑙 + Ϝ (𝑥𝑙 ,𝑤𝑙 )
Trong đó 𝑥𝑙+1 và 𝑥𝑙 là đầu vào và đầu ra của đơn vị thứ l trong mạng, F
là hàm dư và 𝑤𝑙 là các tham số của khối. Mạng phần dư bao gồm các khối
phần dư xếp chồng lên nhau một cách tuần tự. Luận án sử dụng một mạng
rộng dư [49] với hai lớp chập, theo sau là sáu khối dư đã được huấn luyện với
bộ cơ sở dữ liệu đầu vào mạng rộng dư được lấy từ 1.100.000 ảnh của 1.261
49
người đi bộ.
2.3.2.3 Kỹ thuật ràng buộc dữ liệu Hungarian
Có nhiều phương pháp sử dụng làm thuật toán ràng buộc dữ liệu, như
Hungarian method, Global nearest neighbor, ... Trong luận án, tác giả sử dụng
thuật toán Hungarian method làm thuật toán ràng buộc dữ liệu.
Thuật toán Hungarian là thuật toán gán các phát hiện tới các vết trong
tiến trình bám nhiều đối tượng. Trong trường hợp này, khoảng cách giữa các
đối tượng phát hiện được trong hai frame liên tiếp (frame thứ k-1 và frame
thứ k). Thuật toán Hungarian trong bám đối tượng gồm các bước như sau:
Bước 1: Trừ cực tiểu hàng. Trong mỗi hàng, ta tìm phần tử nhỏ nhất sau
đó lấy mỗi phần tử trong hàng trừ đi phần tử nhỏ nhất đó.
Bước 2: Trừ cực tiểu cột. Trong mỗi cột, tìm phần tử nhỏ nhất sau đó lấy
mỗi phần tử trong cột đó trừ đi phần tử nhỏ nhất.
Bước 3: Kẻ các đường thẳng song song với các hàng và cột sao cho
bao tất cả các phần tử 0 ở mỗi hàng và cột sao cho số đường kẻ được là ít
nhất. Nếu số đường thẳng kẻ được ít nhất bằng số hàng (số cột) thì bài
toán đã có lời giải tối ưu. Nếu số đường kẻ được nhỏ hơn số hàng số cột
thì chuyển sang bước 4.
Bước 4: Tạo các số 0 bổ sung. Tìm phần tử nhỏ nhất không được bao bởi
đường thẳng nào trong bước 3, sau đó lấy tất cả các phần tử chưa bị gạch trừ
đi số đó, các số bị gạch bởi hai đường thẳng cộng với số đó, các số còn lại giữ
nguyên. Tiếp tục thực hiện lại từ bước 3 cho đến khi tìm được lời giải tối ưu.
Trong thuật toán Hungarian bước 1 và 2 chỉ thực hiện một lần, trong khi
bước 3 và bước 4 có thể được thực hiện nhiều lần cho đến khi tìm được lời
giải tối ưu.
Với kỹ thuật ràng buộc dữ liệu dùng thuật toán Hungarian ta có thể liên
50
kết các đối tượng qua các frame liên tiếp (frame - to - frame). Trong trường
hợp đối tượng bị che khuất mà bộ phát hiện không phát hiện được, lFile đính kèm:
luan_an_nghien_cuu_phat_trien_he_thong_dieu_huong_thong_minh.pdf
Trích yếu Luận án NCS Đỗ Nam Thắng.doc
TomTat LuanAn NCS Đỗ Nam Thắng_Tiếng Việt.pdf
TomTat LuanAn NCS Do Nam Thang_English.pdf
Thông tin kết luận mới của luận án-NCS Đỗ Nam Thắng.doc

