NHẬN DẠNG HOẠT ĐỘNG DỰA TRÊN KHUNG XƯƠNG SỬ DỤNG KẾT HỢP CÁC ĐẶC TRƯNG CHO MẠNG TÍCH CHẬP ĐỒ THỊ KHÔNG GIAN-THỜI GIAN
Tóm tắt
Kỹ thuật nhận dạng hoạt động người (HAR) là một bài toán được ứng dụng rộng rãi trong nhiều lĩnh vực như trò chơi, y tế, giám sát và điều khiển rô-bốt. Nhiều nghiên cứu về nhận dạng hoạt động người đã được đề xuất. Các phương pháp này tập trung vào khai thác dữ liệu ảnh màu, ảnh độ sâu và khung xương nhằm nâng cao hiệu năng nhận dạng hoạt động. So với ảnh màu và ảnh độ sâu, dữ liệu khung xương thường nhỏ gọn, do đó hiệu quả hơn trong tính toán và lưu trữ. Ngoài ra, dữ liệu khung xương bất biến với sự thay đổi về trang phục của người thực hiện hoạt động, môi trường xung quanh và điều kiện chiếu sáng. Cùng với sự bùng nổ của kỹ thuật học sâu, các mạng tích chập đồ thị không gian-thời gian (ST-GCN) cho thấy hiệu quả trong biểu diễn và nhận dạng hoạt động dựa trên khớp xương. Tuy nhiên, khi làm việc trên các dữ liệu thách thức như chứa nhiều nhiễu, thiếu thông tin, hiệu quả của phương pháp ST-GCN giảm đi đáng kể. Trong bài báo này, một phương pháp mới được đề xuất dựa trên ST-GCN cho nhận dạng hoạt động sử dụng kết hợp các đặc trưng và tối ưu các siêu tham số. Hiệu năng của phương pháp đề xuất được đánh giá trên tập dữ liệu có nhiều nhiễu là CMDFALL và tập dữ liệu MICA-Action3D. Kết quả cho thấy phương pháp đề xuất có hiệu năng tốt hơn ST-GCN trên các tập dữ liệu thử nghiệm.