Audio-Visual Action Recognition Using Transformer Fusion Network

Kim, Jun-Hwa; Won, Chee Sun

doi:10.3390/app14031190

상세 보기

Audio-Visual Action Recognition Using Transformer Fusion Network

Kim, Jun-Hwa;
Won, Chee Sun

Citations

WEB OF SCIENCE

2

Citations

SCOPUS

6

초록

Our approach to action recognition is grounded in the intrinsic coexistence of and complementary relationship between audio and visual information in videos. Going beyond the traditional emphasis on visual features, we propose a transformer-based network that integrates both audio and visual data as inputs. This network is designed to accept and process spatial, temporal, and audio modalities. Features from each modality are extracted using a single Swin Transformer, originally devised for still images. Subsequently, these extracted features from spatial, temporal, and audio data are adeptly combined using a novel modal fusion module (MFM). Our transformer-based network effectively fuses these three modalities, resulting in a robust solution for action recognition.

키워드

action recognition; multi modal; deep learning; video

제목: Audio-Visual Action Recognition Using Transformer Fusion Network

저자: Kim, Jun-Hwa; Won, Chee Sun

DOI: 10.3390/app14031190

발행일: 2024-02

유형: Article

저널명: Applied Sciences

권: 14

호: 3

페이지: 1 ~ 13

ScholarWorks@동국대학교

상세 보기

초록

키워드