Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0040 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS Phan Anh Cang1, Lê Phương Thảo1, Phan Thượng Cang2 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long 2 Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, lpthao1187@gmail.com, ptcang@cit.ctu.edu.vn TÓM TẮT: Deep Neural Networks (DNN) - Một thuật toán học máy sử dụng mạng neural nhân tạo nhiều tầng vào các lĩnh vực xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… đang nhận được sự quan tâm của các nhà khoa học trên thế giới. Trong bài báo này, chúng tôi đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video. Để thực hiện công việc này, chúng tôi xây dựng một số mô hình DNN phổ biến hiện nay như Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet để đánh giá độ chính xác trên tập dữ liệu thu thập được từ kho nội dung của Đài Phát thanh và Truyền hình Vĩnh Long. Kết quả thực nghiệm cho thấy phương pháp có sử dụng DNN đạt độ chính xác cao từ 86% đến 95%. Đây cũng là cơ sở cho những nghiên cứu có liên quan trong việc lựa chọn mô hình phù hợp cho việc trích xuất nội dung từ video nhằm phục vụ cho việc truy vấn video dựa vào nội dung theo hướng tiếp cận dữ liệu lớn. Từ khóa: Truy vấn video, Deep Neural Networks, Faster R-CNN Resnet, SSD Mobilenet. I. GIỚI THIỆU Hiện nay, video đang là một trong những phương thức truyền tải thông tin dễ dàng tiếp cận được nhiều người dùng trên thế giới. Với ưu điểm trực quan, sinh động, hình ảnh của video bao hàm nhiều nội dung mà không cần thể hiện cụ thể bằng ngôn ngữ. Tận dụng những nội dung này phục vụ cho việc lưu trữ và tìm kiếm chính là thách thức đặt ra cho các nhà quản trị kênh truyền thông đa phương tiện. Từ thực tế đó, bài toán đề xuất được đặt ra và mô tả như sau: Đầu vào là nội dung mà người dùng muốn tìm kiếm, đầu ra là danh sách các video có chứa nội dung đó. Khái niệm nội dung ở đây chính là những thông tin được thể hiện bằng hình ảnh mà không cần từ ngữ cụ thể. Bài toán này có tính ứng dụng cao trong các hệ thống phục vụ truy vấn video bởi các công cụ tìm kiếm thông thường chỉ dựa trên tên và một số ít thông tin của video, dễ bỏ qua những tìm kiếm chuyên sâu vào nội dung. Những năm gần đây, nhiều phương pháp truy vấn video dựa vào nội dung đã được đưa ra. Năm 2016, Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức đã đề xuất một hệ thống phát hiện cảnh bạo lực trong video dựa vào thuộc tính biểu diễn qua ba mô hình DNN phổ biến như Alex Net, UavNet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn VSD 2014 [1]. Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12 % cao hơn so với phương pháp tốt nhất không sử dụng DNN là 13 %. Năm 2018 Mr. Braveen M. đề xuất một phương pháp truy xuất video dựa trên nội dung với các đa thức trực giao [2]. Hệ thống này đề xuất nhận dạng các khung hình chính từ các hình ảnh đầu vào và sử dụng màu sắc, kết cấu, góc cạnh và hình dạng của nội dung trực quan. Sau đó các đặc trưng này sẽ được lập chỉ mục, đối sánh và phục vụ truy xuất. Phương pháp này chỉ được thực nghiệm trên 20 video và chỉ sử dụng đặc trưng từ hình ảnh. Tháng 7/2018 Mrs S. Renukadevi cũng đề xuất một mô hình tìm kiếm video dựa vào kỹ thuật phân cụm trích xuất đặc trưng và mô hình cây quyết định [3]. Hệ thống thực nghiệm trên tập dữ liệu gồm 100 video bằng 3 kỹ thuật phân cụm trích xuất đặc trưng và đạt độ chính xác cao nhất là 37%. Cũng trong năm 2018, Le Wang, Jinliang Zang, Qilin Zhang, Zhenxing Niu, Gang Hua và Nanning Zheng đề xuất CNN có trọng số thời gian theo thời gian (ATW CNN) để nhận dạng hành động trong video [4]. Kết quả thử nghiệm trên bộ dữ liệu UCF-101 và HMDB-51 cho thấy hiệu suất nhận dạng các phân đoạn video có liên quan khi sử dụng mô hình này tăng đáng kể. Và đóng góp của chúng tôi trong nghiên cứu này chính là các tập dữ liệu đã được lập chỉ mục sau khi thực nghiệm; phương pháp rút trích nội dung video dựa vào đặc trưng đối tượng trên hình ảnh; cải tiến các mạng Deep Neural Network trong quá trình nghiên cứu; so sánh, đánh giá về độ chính xác và thời gian của các phương pháp đề xuất để cung cấp thêm cơ sở khoa học cho các nghiên cứu về sau. Trong nội dung bài báo, chúng tôi tập trung chủ yếu vào việc áp dụng ba kiến trúc mô hình Deep Neural Network hiện đại trong phát hiện đối tượng, cụ thể là Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2. II. CÔNG VIỆC LIÊN QUAN A. Deep Neural Network Deep Neural Network [5] là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn vị neural network mà trong đó, ngoài các lớp nguồn vào (input), nguồn ra (output) thì có nhiều lớp ẩn (hidden layer). Mỗi lớp này sẽ thực hiện một kiểu phân loại và sắp xếp riêng trong một quá trình gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm một trọng trách riêng, output của lớp này sẽ là input của lớp sau. Deep Neural Network được xây dựng với mục đích mô phỏng hoạt động não bộ phức tạp của con người và được áp dụng vào nhiều lĩnh vực khác nhau, mang lại thành công và những hiệu quả đáng kinh ngạc.
  2. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 35 Hình 1. Mô hình Deep Neural Network [5] B. Faster R-CNN Đây là kiến trúc mô hình cải thiện về cả tốc độ huấn luyện và phát hiện được đề xuất bởi Shaoqing Ren và các cộng sự tại Microsoft Research trong bài báo năm 2016 có tiêu đề Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (RPN) [6]. Kiến trúc Faster R-CNN này là đỉnh cao của họ model R-CNN và tiếp tục đạt được kết quả gần như tốt nhất trong các nhiệm vụ nhận diện đối tượng. Hình 2. Kiến trúc mạng Faster R-CNN Resnet [6] Hàm tính toán độ đo Loss (L) được xác định bởi công thức (1), (2). 1 1 𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿({𝑝𝑝𝑖𝑖 }, {𝑡𝑡𝑖𝑖 }) = ∑𝑖𝑖 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 (𝑝𝑝𝑖𝑖 , 𝑝𝑝𝑖𝑖∗ ) + λ ∑𝑖𝑖 𝑝𝑝𝑖𝑖∗ 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 (𝑡𝑡𝑖𝑖 , 𝑡𝑡𝑖𝑖∗ ) (1) 𝑁𝑁𝑐𝑐𝑐𝑐𝑐𝑐 𝑁𝑁𝑟𝑟𝑟𝑟𝑟𝑟 2 0.5(𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 ) 𝑛𝑛ế𝑢𝑢 |𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 | < 1 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆ℎ𝐿𝐿1𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿(𝑥𝑥, 𝑦𝑦) = � (2) |𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 | − 0.5 𝑛𝑛𝑛𝑛ượ𝑐𝑐 𝑙𝑙ạ𝑖𝑖 Với i là index của anchor trong mini-batch và pi là xác suất dự đoán của anchor i là một đối tượng. Giá trị nhãn ground-truth pi∗ là 1 nếu anchor là positive và là 0 khi anchor là negative. + ti là một vector 4 chiều biểu diễn giá trị tọa độ của bounding box đã được dự đoán. + ti∗ là vector 4 chiều biểu diễn giá trị tọa độ của ground-truth box tương ứng với positive anchor. + 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 là log loss của 2 lớp (object và non-object). + 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 dùng SmoothL1Loss. C. MobileNet v2 Các mô hình DNN vừa được giới thiệu, tuy có độ chính xác cao, nhưng đều có một điểm hạn chế chung đó là không phù hợp với các ứng dụng trên mobile hay các hệ thống nhúng có khả năng tính toán thấp. Nếu muốn phát triển các mô hình trên cho các ứng dụng thời gian thực thì cần phải có cấu hình cực kì mạnh mẽ (GPU/TPU) còn đối với các hệ thống nhúng (Raspberry Pi, Nano pc…) hay các ứng dụng chạy trên smart phone, cần có một mô hình "nhẹ" hơn. Trên cùng tập dữ liệu ImageNet, MobileNet v2 có độ chính xác không hề thua kém các mô hình khác như VGG16, VGG19 trong khi lượng parameters chỉ khoảng 3.5 M (khoảng 1/40 số tham số của VGG16) [7]. Bảng 1. Phác thảo kiến trúc mạng MobileNet v2 Type/Stride Filter Shape Input size Conv /s2 3 × 3 × 3 × 32 224 × 224 × 3 Conv dw/s1 3 × 3 × 32 dw 112 × 112 × 32 Conv /s1 1 × 1 × 32 × 64 112 × 112 × 32 Conv dw /s2 3 × 3 × 64 dw 112 × 112 × 64 Conv /s1 1 × 1 × 64 × 128 56 × 56 × 128 Conv dw/s1 3 × 3 × 256 dw 56 × 56 × 128 Conv /s1 1 × 1 × 128 × 256 56 × 56 × 128 Conv dw /s2 3 × 3 × 256 dw 56 × 56 × 128
  3. 36 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS Type/Stride Filter Shape Input size Conv /s1 1 × 1 × 128 × 256 28 × 28 × 256 Conv dw/s1 3 × 3 × 256 dw 28 × 28 × 256 Conv /s1 1 × 1 × 256 × 256 28 × 28 × 256 Conv dw /s2 3 × 3256 dw 28 ×28× 256 Conv /s1 1 × 1 × 256 × 512 14 × 14 × 256 Conv dw/s1 3 × 3 × 512 dw 14 × 14 × 512 5xConv/s1 1 × 1 × 512 × 512 14 × 14 × 512 Conv dw/s2 3 × 3 × 512 dw 14 × 14 × 512 Conv/s1 1 × 1 × 512 × 1024 7× 7 × 512 Conv dw/s2 3× 3 × 1024 dw 7 × 7 × 1024 Conv /s1 1 × 1 × 1024 × 1024 7 × 7 × 1024 Avg Pool /s1 Pool 7 × 7 7 × 7 × 1024 FC /s1 1024 × 1000 1 × 1 × 1024 Softmax/s1 Classifier 1 × 1 × 1000 III. MÔ HÌNH ĐỀ XUẤT Hệ thống tìm kiếm video dựa vào nội dung mà chúng tôi đề xuất có quy trình thực hiện như sau: Từ file video đầu vào thực hiện cắt ra thành các frame hình, tiếp theo chúng tôi sẽ phát hiện đối tượng (nội dung) trên hình ảnh đó. Kết thúc quá trình xử lý video nguồn, kết quả thu được là một tệp văn bản tương ứng đối với nội dung của video đã được trích xuất. Các văn bản ở dạng thô cần được chuyển sang một dạng biểu diễn nào đó để xử lý. Quá trình đó là lập chỉ mục cho tệp văn bản để hỗ trợ việc tìm kiếm thông tin của người dùng. Các thông tin rút trích được sẽ được lập chỉ mục và lưu vào cơ sở dữ liệu của công cụ tìm kiếm dưới dạng văn bản (text) để phục vụ cho quá trình tiếp theo là truy vấn. Hệ thống chỉ mục thu được là danh sách các từ khóa, chỉ rõ các từ khóa nào xuất hiện ở video nào, địa chỉ nào. Bài toán phát hiện đối tượng được chia thành 3 thành phần chính: Tiền xử lý, rút trích đặc trưng và phân loại. Kết quả phân loại sẽ dựa vào quá trình huấn luyện, cho biết dữ liệu ảnh thuộc loại nào và có độ chính xác là bao nhiêu. Chi tiết các giai đoạn thực hiện của hệ thống tìm kiếm video dựa vào nội dung mà chúng tôi đề xuất lần lượt như sau: Hình 3. Mô hình tổng quát phương pháp đề xuất • Phase 1- Huấn luyện mô hình: Giai đoạn huấn luyện được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước trích chọn đặc trưng và bước huấn luyện. a) Tiền xử lý: Đầu vào của hệ thống là các video. Các video này sẽ được trích xuất thành các frame ảnh, để tránh bỏ sót khung hình, chúng tôi thực hiện lấy 1 hình trên 1 giây [8] làm dữ liệu đầu vào cho quá trình trích xuất đặc trưng tiếp theo. Sau đó sẽ chọn lọc những hình ảnh có chứa đối tượng cần nhận dạng để thực hiện việc gán nhãn dữ liệu. Toàn bộ quá trình này sẽ thực hiện với sự tư vấn và giám sát của các chuyên gia về nội dung. Trải qua giai đoạn tiền xử lý dữ liệu, chúng tôi sẽ nhận được một tập ảnh có chứa các đối tượng được gán nhãn có độ tin cậy cao. Trong bước này thực hiện xác định khối ROI của từng hành động dựa trên việc
  4. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 37 gán nhãn bằng tay. Trong bài báo này chúng tôi sử dụng một tool có sẵn là labeling. Quá trình này về cơ bản là vẽ các hộp xung quanh đối tượng trong ảnh. Sau khi gán nhãn dữ liệu chia dữ liệu thành các tệp train/test. Chuyển đổi các tệp XML thành các tệp CSV và sau đó tạo TFRecords từ các tệp này. Tệp train TFRecords này được đưa để đào tạo mô hình. Cuối cùng các giá trị được đưa vào mô hình để đánh giá. b) Trích chọn đặc trưng: Để có thể phát hiện và phân loại được đối tượng, chúng tôi tiến hành rút trích đặc trưng trên tập dữ liệu đã được tiền xử lý ở bước 1. Chúng tôi đề xuất phương pháp rút trích đặc trưng với 3 mô hình mạng: Resnet, Inception Resnet và MobileNet v2. Chúng tôi cũng thực hiện thay đổi kích thước của max pooling nhằm đưa ra những đánh giá khách quan và đa dạng hơn. c) Huấn luyện mô hình: Tập dữ liệu sau khi rút trích đặc trưng sẽ được huấn luyện trên ba mô hình mạng SSD Mobilenet v2, Faster R-CNN Inception ResNet và Faster R-CNN Resnet. Mỗi mô hình mạng như vậy được huấn luyện trên cùng một môi trường giống nhau, chúng tôi giám sát trong quá trình huấn luyện dựa vào chỉ số Loss của từng kiến trúc mạng đã được trình bày trong phần 2.2 để đưa ra quyết định điểm dừng huấn luyện. Cả ba mô hình được huấn luyện cho đến khi chỉ số Loss không được cải thiện (không giảm) sau số lần học nhất định chúng tôi sẽ dừng huấn luyện mô hình và chuyển sang giai đoạn kiểm thử để so sánh, đánh giá mô hình. • Phase 2- Giai đoạn nhận dạng được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước trích chọn đặc trưng và bước nhận dạng. a) Tiền xử lý: Chúng tôi cũng tiến hành trích xuất frame ảnh từ video đầu vào như đã trình bày ở Phần III mục 1a. Theo tiêu chuẩn của video, mỗi giây chúng ta sẽ trích xuất được 25-30 frame. Những frame ảnh này sẽ được đưa vào bước 2 để trích chọn đặc trưng. b) Trích chọn đặc trưng: Cũng giống như bước trích chọn đặc trưng ở Phần III Mục 1b, chúng tôi cũng thực hiện phương pháp rút trích đặc trưng với 3 mô hình mạng: Resnet, Inception Resnet và MobileNet v2. c) Nhận dạng đối tượng: Từ bước 1 và bước 2, dựa vào các thuật toán phân loại như đã trình bày ở Phần II và CSDL huấn luyện, ta tiến hành đưa ảnh đầu vào để xác nhận đối tượng và đưa ra kết quả. Đặt một ngưỡng 0.5 để quy định độ chính xác khi nhận dạng, nếu lớn hơn ngưỡng này tức là đối tượng này tồn tại trong CSDL huấn luyện kết quả trả về sẽ là một id của đối tượng đó. IV. KẾT QUẢ THỰC NGHIỆM A. Môi trường cài đặt và tập dữ liệu Để đánh giá phương pháp đề xuất chúng tôi sử dụng dữ liệu là tập hình ảnh được trích xuất từ các video được phát sóng của Đài Phát thanh và Truyền hình Vĩnh Long bao gồm thời sự, chuyên mục, giải trí. Để so sánh và đánh giá các mô hình, chúng tôi thực hiện phương pháp đề xuất trên ba mô hình SSD Mobilenet v2, Faster R-CNN Inception ResNet v2 và Faster R-CNN Resnet trong cùng một môi trường Google Colab với Ubuntu 18.04, cấu hình RAM 12GB và dùng GPU Nvidia Tesla P100. Thư viện hỗ trợ huấn luyện mô hình mạng sử dụng là Tensorflow GPU phiên bản 2.3.0. Tập dữ liệu gồm 1,539 ảnh với 38 bộ phân lớp được chia theo tỉ lệ 80 % (1231 ảnh) cho tập Training và 20 % (308 ảnh) cho tập Test. Chất lượng tập dữ liệu ảnh hưởng trực tiếp đến kết quả về độ chính xác khi huấn luyện mô hình mạng. Trong nghiên cứu này, chúng tôi gán 38 nhãn bằng công cụ gán nhãn dữ liệu LabelImg. Tập dữ liệu huấn luyện được sử dụng trong giai đoạn huấn luyện và tập dữ liệu kiểm thử được sử dụng cho kiểm thử độ chính xác. Bảng 2. Mô tả chi tiết tập dữ liệu huấn luyện STT Video Độ dài (phút) Dung lượng (MB) Số ảnh trích xuất Dung lượng ảnh trích xuất (MB) 1 Tin1 2:29 475 150 11.2 2 Tin2 2:13 424 135 9.89 3 Tin3 2:36 599 158 10.6 4 Tin4 2:29 478 151 12.2 5 Tin5 2:11 419 133 9.95 6 Tin6 4:47 916 289 25.5 7 Tin7 2:31 482 153 16.3 8 Tin8 3:27 792 209 14.5 9 Tin9 2:39 508 161 10.9 Tổng cộng 25:22 5,093 1,539 121.04 B. Kết quả thực nghiệm Đối với mô hình mạng nơron trong quá trình huấn luyện đều có các tham số riêng và rất đặc trưng trong mô hình như tốc độ học (Learning rate), số lần lặp (Iteration), kích thước ảnh đầu vào (Image size). Bên cạnh đó việc lựa chọn mô hình cho quá trình trích xuất đặc trưng (backbone) cũng đóng vai trò quan trọng trong quá trình huấn luyện. Tất cả các những thiết đặt này đều ảnh hưởng tới các yếu tố như độ chính xác, tốc độ, thời gian xử lý và tài nguyên của hệ thống. Chúng tôi tiến hành thực nghiệm theo 2 kịch bản.
  5. 38 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS • Kịch bản 1: Chúng tôi huấn luyện ba mô hình mạng nơron này bằng phương pháp transfer learning tức là sử dụng bộ trọng số đã được huấn luyện trước đó trên các tập dữ liệu lớn như ImageNet, COCO,… Sau đó bằng cách sử dụng trọng số đã được học và tiếp tục huấn luyện trên tập dữ liệu thực của bài toán. Việc huấn luyện theo phương pháp này giúp chúng tôi giải quyết được vấn đề thiếu dữ liệu trong việc huấn luyện các mạng nơron. Bảng 2 và bảng 3 dưới đây thể hiện những tham số huấn luyện mà chúng tôi sử dụng cho ba mô hình Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2 và SSD MobileNet v2. Bảng 3. Các tham số huấn luyện của các mô hình mạng nơron Learning Batch Num Score Num Mô hình mạng Scales IoU Image size rate size classes converter step SSD MobileNet v2 0.0003 24 38 [0.3, 0.95] Sigmoid 50.000 0.5 512 x 512 [0.25, 0.5, Faster R-CNN Inception Reset 0.0003 1 38 Softmax 50.000 0.5 512 x 512 1.0, 2.0] [0.25, 0.5, Faster R-CNN Reset 0.0003 1 38 Softmax 50.000 0.5 512 x 512 1.0, 2.0] • Kịch bản 2: Chúng tôi sử dụng cho ba mô hình Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2 và SSD MobileNet v2 nhưng thay đổi max pooling từ kích thước mặc định 3×3 sang kích thước 2×2 với số bước học là 100.000 bước. 1. Kết quả kịch bản 1 a) Classification Loss Faster R-CNN Resnet b) Localization Loss Faster R-CNN Resnet c) Total Loss Faster R-CNN Resnet d) Classification Loss Faster R-CNN Inception e) Localization Loss Faster R-CNN Inception f) Total Loss Faster R-CNN Inception Resnet v2 Resnet v2 Resnet v2 g) Classification Loss SSD MobileNet v2 h) Localization Loss SSD MobileNet v2 i) Total Loss SSD MobileNet v2 Hình 4. Biểu đồ so sánh chỉ số Loss của 3 mô hình trong kịch bản 1 Từ hình 4c cho thấy, giá trị Loss_value của mô hình Faster R-CNN Resnet là rất thấp dưới 10 % (Loss_value < 0.01) so với các mô hình còn lại (Hình 4a đến hình 4i) sau khi trải qua khoảng 50.000 lần huấn luyện. Cụ thể mô hình SSD Mobilenet v2 có Classification Loss là 0.8, localization Loss là 0.1; mô hình Faster R-CNN Inception Resnet v2 có Classification Loss là 0.09 và localization Loss là 0.07; mô hình Faster R-CNN Resnet có Classification Loss là 0.01 và localization Loss là 0.05. Điều này có nghĩa là mức độ sai sót khi dự đoán phân loại đối tượng và số lần huấn luyện của mô hình Faster R-CNN Resnet là thấp nhất so với các mô hình còn lại. Với bài toán phân lớp, các mô hình cần được đánh giá về độ chính xác phân lớp đối tượng. Hình 5 và bảng 4 mô tả độ chính xác phân lớp của ba mô hình qua hai độ đo AP và mAP.
  6. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 39 Hình 5. Biểu đồ biểu diễn độ chính xác từng lớp Kết quả thực nghiệm khi huấn luyện trên 3 mô hình lần lượt như sau: Bảng 4. Mô tả chi tiết kết quả thực nghiệm Mô hình Thời gian huấn luyện mAP Faster R-CNN Resnet 7h12p 0.95 Faster R-CNN Inceptiopn Resnet 6h41p 0.93 SSD Mobilenet v2 5h27p 0.86 Dựa vào kết quả thực nghiệm ở bảng 4, khi đánh giá các mô hình với độ đo mAP, phương pháp Faster R-CNN Resnet cho kết quả đạt cao nhất với mAP = 0,95 cho cả 38 đối tượng (hình 6). Hai mô hình SSD Mobilenet v2 và Faster-R-CNN Inception Resnet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.93 và 0.86. Cả ba mô hình chúng tôi huấn luyện trên cùng một môi trường, trong đó thời gian huấn luyện không bằng nhau: 7 giờ 12 phút cho mô hình mạng Faster R-CNN Resnet; 6 giờ 41 phút cho mô hình mạng Faster R-CNN Inception Resnet v2; 5 giờ 27 phút với mô hình SSD MobileNet v2. Hình 6. Biểu đồ so sánh độ chính xác Hình 7. Biểu đồ so sánh thời gian huấn luyện Tương tự, Chúng ta có thể thấy rằng mô hình mạng Faster R-CNN Resnet có thời gian huấn luyện và nhận dạng lâu nhất so với các mô hình khác nhưng độ đo mAP là cao nhất (hình 6 và hình 7). Mô hình SSD Mobilenet có thời gian huấn luyện nhanh, đạt tốc độ nhanh đáng kể so với thời gian huấn luyện của mô hình Faster R-CNN Resnet và Faster R-CNN Inception-Resnet v2 nhưng độ đo mAP là thấp nhất. Điều này phù hợp với mục đích xây dựng mạng SSD Mobilenet có kiến trúc đơn giản, phù hợp cho mô hình xử lý thời gian thực với độ chính xác chấp nhận được. 2. Kết quả kịch bản 2 Để đánh giá chỉ số Loss của ba mô hình, chúng tôi dựa vào Classification Loss, Localization Loss và Total Loss của mỗi mô hình. Kết quả được trình bày trong hình 8. a) Classification Loss Faster R-CNN Resnet b) Localization Loss Faster R-CNN Resnet c) Total Loss Faster R-CNN Resnet
  7. 40 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS d) Classification Loss Faster R-CNN e) Localization Loss Faster R-CNN Inception f) Total Loss Faster R-CNN Inception Resnet Inception Resnet v2 Resnet v2 v2 g) Classification Loss SSD MobileNet v2 h) Localization Loss SSD MobileNet v2 i) Total Loss SSD MobileNet v2 Hình 8. Biểu đồ so sánh chỉ số Loss của 3 mô hình trong kịch bản 2 Dựa vào hình 8c, 8f và 8i ta có thể thấy total loss là tối thiểu khi số bước tăng đến 100.000 bước. Từ Hình 8d cho thấy, giá trị Loss_value của mô hình Faster R-CNN Inception Resnet v2 là rất thấp dưới 10 % (Loss_value < 0.01) so với các mô hình còn lại (hình 8a đến hình 8i) sau khi trải qua khoảng 100.000 lần huấn luyện. Cụ thể mô hình Faster R-CNN Resnet có Classification Loss là 0.03, localization Loss là 0.02; mô hình Faster R-CNN InceptionResnet v2 có Classification Loss là 0.01 và localization Loss là 0.02; mô hình SSD MobileNet v2 có Classification Loss là 0.8 và localization Loss là 0.07. Điều này có nghĩa là mức độ sai sót khi dự đoán phân loại đối tượng và số lần huấn luyện của mô hình Faster R-CNN Inception Resnet v2 là thấp nhất so với các mô hình còn lại trong kịch bản này. Hình 9 và bảng 5 mô tả độ chính xác phân lớp của ba mô hình qua hai độ đo AP và mAP. Về độ chính xác trung bình (AP), mô hình Faster R-CNN Inception Resnet v2 có kết quả phân lớp ổn định nhất so với hai mô hình còn lại. Hình 9. Biểu đồ biểu diễn độ chính xác từng lớp trong kịch bản 2 Kết quả thực nghiệm khi huấn luyện trên 3 mô hình trong kịch bản 2 lần lượt như sau: Bảng 5. Mô tả chi tiết kết quả thực nghiệm trong kịch bản 2 Mô hình Thời gian huấn luyện mAP Faster R-CNN Resnet 16h10p 0.94 Faster R-CNN Inception Resnet 15h41p 0.95 SSD Mobilenet v2 8h38p 0.88 Dựa vào kết quả thực nghiệm ở bảng 7, khi đánh giá các mô hình với độ đo mAP, phương pháp Faster R-CNN Inception Resnet cho kết quả đạt cao nhất với mAP = 0.95 cho cả 38 đối tượng (hình 10). Hai mô hình Faster R-CNN Resnet và SSD Mobilenet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.94 và 0.88. Cả ba mô hình chúng tôi huấn luyện trên cùng một môi trường, trong đó thời gian huấn luyện cho từng mô hình như sau: 16 giờ 10 phút cho mô hình mạng Faster R-CNN Resnet; 15 giờ 41 phút cho mô hình mạng Faster R-CNN Inception Resnet v2; 8 giờ 38 phút với mô hình SSD MobileNet v2. Tương tự, chúng ta có thể thấy rằng mô hình mạng SSDMobileNet v2 có thời gian huấn luyện và nhận dạng nhanh hơn mô hình Faster R-CNN Inception Resnet v2 và chậm hơn mô hình Faster R-CNN Resnet nhưng độ đo mAP là thấp nhất (hình 10 và hình 11). Điều này phù hợp với mục đích xây dựng mạng SSD Mobilenet có kiến trúc đơn giản
  8. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 41 nhưng có độ chính xác chấp nhận được. Sau khi tăng số bước học thì độ đo mAP của mô hình Faster R-CNN Inception Resnet v2 cũng đã tăng lên và đạt cao nhất trong 3 mô hình. Nhóm thuật toán ResNet và Inception đi theo tiêu chí là độ chính xác quan trọng hơn tốc độ (và quả thật nhóm thuật toán thuộc họ này có độ chính xác khá cao). MobileNet cung cấp cho chúng ta một mô hình khá nhỏ gọn, sử dụng SSD, mục tiêu của nhóm này là có thể xử lý được trên các thiết bị di động và thời gian xử lý là thời gian thực. Hình 10. Biểu đồ so sánh độ chính xác Hình 11. Biểu đồ so sánh thời gian huấn luyện Dựa vào kết quả thực nghiệm này, chúng ta có thể kết luận mô hình cải tiến từ mô hình Faster R-CNN Inception Resnet v2 là mô hình phù hợp nhất để rút trích nội dung video trong bài toán này. Đồng thời, khi so sánh với các nghiên cứu trước đây được trình bày trong Phần I - Giới thiệu thì phương pháp đề xuất trong bài báo đã đạt độ chính xác 96 %, cao hơn 47.88 % so với độ chính xác của nghiên cứu [1], cao hơn so với độ chính xác của nghiên cứu [2] 27 %, cao hơn độ chính xác của nghiên cứu [3] 59 %. Điều này khẳng định rằng sử dụng Deep Neural Networks để biểu diễn các thuộc tính nội dung có trong video nhằm phục vụ cho việc lập chỉ mục tìm kiếm thật sự là một hướng nghiên cứu có hiệu quả cao, khả quan cho các hệ thống truy vấn video có dữ liệu lớn. V. KẾT LUẬN Trong nghiên cứu này, chúng tôi đã trình bày phương pháp sử dụng Deep Neural Networks để biểu diễn các thuộc tính nội dung có trong video trên tập các ảnh gồm 38 nhãn. Khi thực hiện và huấn luyện bằng Deep Neural Network cụ thể là kiến trúc mạng Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2, ta thấy được là phương pháp này đều đạt độ chính xác cao từ 86 % đến 95 % cho các mô hình kiến trúc. Đồng thời phương pháp này cũng chứng minh được sự thay đổi của độ chính xác tùy theo bộ tham số sử dụng. Các kết quả thực nghiệm cũng thể hiện tính khả thi của phương pháp khi áp dụng trên các công cụ tìm kiếm, cả về độ chính xác và thời gian thực hiện. Phương pháp có ưu điểm là tận dụng được khả năng xử lý của mạng nơron sâu cho cả thao tác trích xuất đặc trưng và phân loại đối tượng. Tuy nhiên, nhược điểm của phương pháp là cần được thực hiện tối ưu nhằm tìm ra bộ tham số tốt nhất do việc huấn luyện trên mạng nơron sâu là một hoạt động tiêu tốn tài nguyên và thời gian, nghiên cứu này chưa thực hiện tối ưu một cách triệt để các tham số của thuật toán. TÀI LIỆU THAM KHẢO [1] L. Q. V. P. L. S. N. Đ. T. L. Đ. D. D. A. Đ. Đỗ Văn Tiến, "Sử dụng Deep Neural Networks biểu diễn các thuộc tính cho bài toán phát hiện cảnh bạo lực trong video," Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9), 2016. [2] B. M, "Content based video retrieval with orthogonal polynomials," Anna University, 2018. [3] S. Renukadevi, "Spectral cluster based temporal feature extraction and b tree indexing for video retrieval," Periyar University, 2018. [4] P. B. F. C. F. D. F. F. C. G. Giuseppe Amato, "The VISIONE video search system: exploiting off-the-shelf text search engines for large-scale video retrieval," International Conference on Multimedia Modeling, 2020. [5] S. S. Pramila Shinde, "A Review of Machine Learning and Deep Learning Applications," ICCUBEA, 2018. [6] K. H. R. G. J. S. Shaoqing Ren, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems 28, 2015. [7] A. H. M. Z. A. Z. L.-C. C. Mark Sandler, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [8] P. T. C. L. P. T. Phan Anh Cang, "Hệ thống tìm kiếm video theo hướng tiếp cận xử lý dữ liệu lớn," Hội thảo quốc gia lần thứ XXIII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, 2020.
  9. 42 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS CONTENT-BASED VIDEO RETRIEVAL WITH DEEP NEURAL NETWORKS Phan Anh Cang, Le Phuong Thao, Phan Thuong Cang ABSTRACT: Deep Neural Networks (DNN) - A machine learning algorithm that uses multi-layer artificial neural networks in the fields of image processing, audio processing, natural language processing, etc., is receiving the attention of scientists. study in the world. In this paper, we propose to use DNN to represent content attributes for images in video. The extracted attributes will serve as the basis for indexing and searching for video query systems. To do this work, we build some popular DNN models today such as Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet to evaluate the accuracy on the collected data set. from the content repository of Vinh Long Radio and Television Station. Experimental results show that the method using DNN achieves high accuracy from 86% to 95%. This is also the basis for related studies in choosing the right model for extracting content from video to serve the big data-oriented content-based video query.
nguon tai.lieu . vn