MMCVLab | Publications

More...
Journal Papers
Shin-Jie Lee, Jhong-Yun Liu, Ti-Mo Lin, Ci-Yin Zhang, and Wei-Ta Chu, "A Siamese Network-Based Visual Structure Comparison Approach for Addressing the Dynamic Content Challenge in Web Visual Testing," Journal of Information Science and Engineering, vol. 42, no. 3, pp. 615--628, 2026.
Yu-Yuan Huang and Wei-Ta Chu, "Learnable Context in Multiple Instance Learning for Whole Slide Image Classification and Segmentation," Journal of Imaging Informatics in Medicine, vol. 38, no. 4, pp. 2322--2336, 2025.
Yu-Chen Lai and Wei-Ta Chu, "ALSA-UAD: Unsupervised Anomaly Detection on Histopathology Images using Adversarial Learning and Simulated Anomaly," Journal of Visual Communication and Image Representation, vol. 113, Article No. 104601, 2025.
Shin-Jie Lee, Jhong-Yun Liu, Ti-Mo Lin, Ci-Yin Zhang, and Wei-Ta Chu, "A Siamese Network-Based Visual Structure Comparison Approach for Addressing the Dynamic Content Challenge in Web Visual Testing," accepted to Journal of Information Science and Engineering, 2025.
Yu-Yuan Huang and Wei-Ta Chu, "Learnable Context in Multiple Instance Learning for Whole Slide Image Classification and Segmentation," accepted to Journal of Imaging Informatics in Medicine, 2025.
Hung-Yu Wu, Ching-Li Kuo, Chen-Yi Lin, and Wei-Ta Chu, "Deep Learning in the Advanced Core Sample Porosity Determination with XCT image," Earth Science Informatics, vol. 18, no. 17, 2025.
Yi-Chen Chen and Wei-Ta Chu, "Positive and Negative Set Designs in Contrastive Feature Learning for Temporal Action Segmentation," accepted to IEEE Transactions on Circuits and Systems for Video Technology, 2024.
Liang-Yu Sun and Wei-Ta Chu, "Overall Positive Prototype for Few-Shot Open-Set Recognition," Pattern Recognition, vol. 151, pp. 110400, 2024. (project website)
Satya Rajendra Singh, Roshan Reddy Yedla, Shiv Ram Dubey, Rakesh Sanodiya, and Wei-Ta Chu, "Frequency Disentangled Residual Network," Multimedia Systems, vol. 30, no. 1, Article No. 9, 2024.
Che-Sheng Chu, Di-Yuan Wang, Chih-Kuang Liang, Ming-Yueh Chou, Ying-Hsin Hsu, Yu-Chun Wang, Mei-Chen Liao, Wei-Ta Chu, and Yu-Te Lin, "Automated Video Analysis of Audio-visual Approaches to Predict and Detect Mild Cognitive Impairment and Dementia in Older Adults," Journal of Alzheimer’s Disease, vol. 92, no. 3, pp. 875-886, 2023.
Dang Khanh Ngan Ho, Yu-Chieh Lee, Wan-Chun Chiu, Yi-Ta Shen, Chih-Yuan Yao, Hung-Kuo Chu, Wei-Ta Chu, Nguyen Quoc Khanh Le, Hung Trong Nguyen, Hsiu-Yueh Su, and Jung-Su Chang, “COVID-19 and Virtual Nutrition: A Pilot Study of Integrating Digital Food Models for Interactive Portion Size Education,” Nutrients, vol. 14, no. 16, 2022.
Cheng-Wen Wu, Ming-Der Shieh, Jenn-Jier Lien, Jar-Ferr Yang, Wei-Ta Chu, Tsang-Hai Huang, Han-Chuan Hsieh, Hung-Ta Chiu, Kuo-Cheng Tu, Yen-Ting Chen, Shian-Yu Lin, Jia-Jun Hu, Chen-Huan Lin, and Cheng-Siang Jheng, "Enhancing Fan Engagement in a 5G Stadium with AI-Based Technologies and Live Streaming," IEEE Systems Journal, vol. 16, no. 4, pp. 6590-6601, 2022.
Jian-Wei Peng, Min-Chun Hu, and Wei-Ta Chu, "An Imitation Learning Framework for Generating Multi-modal Trajectories from Unstructured Demonstrations," Neurocomputing, vol. 500, pp. 712-723, 2022.
Wen-Cheng Chen, Wan-Lun Tsai, Huan-Hua Chang, Min-Chun Hu, and Wei-Ta Chu, “Instant Basketball Defensive Trajectory Generation,” ACM Transactions on Intelligent Systems and Technology, vol. 13, no. 1, Article No. 3, 2022.
Chien-Wen Chen, Min-Chun Hu, Wei-Ta Chu, and Jun-Cheng Chen, "A Real-Time Sculpting and Terrain Generation System for Interactive Content Creation," IEEE Access, vol. 9, pp. 114914-114928, 2021.
Wei-Ta Chu, Yu-Hsuan Liang, and Kai-Chia Ho, "Visual Weather Property Prediction by Multi-Task Learning and Two-Dimensional RNNs," Atmosphere, vol. 12, no. 5, Article 584, 2021.
Wei-Ta Chu, "How It Flies and Why It Flies? Volleyball Trajectory Segmentation and Classification," IEEE Transactions on Circuits and Systems II: Express Briefs, vol. 68, no. 5, pp. 1591-1595, 2021. (IEEE MSA-TC Best Paper Award)
Wei-Ta Chu and Si-Heng Huang, "Multi-Label Image Recognition by Using Semantics Consistency, Object Correlation, and Multiple Samples," Journal of Visual Communication and Image Representation, vol. 77, Article 103067, 2021.
Wei-Ta Chu and Zong-Wei Pan, "Semi-Supervised 3D Human Pose Estimation by Jointly Considering Temporal and Multiview Information," IEEE Access, vol. 8, pp. 226974-226981, 2020.
Wei-Ta Chu, Hideo Motomura, Norimichi Tsumura, and Toshihiko Yamasaki, "A Survey on Multimedia Artworks Analysis and Attractiveness Computing in Multimedia," ITE Transactions on Media Technology and Applications, vol. 7, no. 2, pp. 60-67, 2019.
Wei-Ta Chu and Wei-Wei Li, "Manga Face Detection based on Deep Neural Networks Fusing Global and Local Information," Pattern Recognition, vol. 86, pp. 62-72, 2019.

More...
International Conferences
Jui-Feng Chi, Wei-Ta Chu, and Sheng-Long Lin, "Food Image Segmentation with LLM-Derived Ingredient Labels and Multimodal Fusion," accepted to International Conference on Multimedia Modeling, 2026.
Yi-Hsuan Lu and Wei-Ta Chu, "Vision-Based 3D Baseball Swing Trajectory Reconstruction and Swing Performance Analysis," accepted to International Conference on Multimedia Modeling, 2026.
Jing-Sian Chen and Wei-Ta Chu, "Contrastive Language-Trajectory Pretraining for Trajectory Analysis," Proceedings of ACM International Conference on Multimedia in Asia Workshops, Article No. 12, 2025.
Yi-Hsuan Lu and Wei-Ta Chu, "SuPACape: Graph-based Category-Agnostic Pose Estimation with Super-Category and Pose Adaptivity," Proceedings of ACM International Conference on Multimedia in Asia, Article No. 11, 2025.
Yuki Kondo, Norimichi Ukita, Riku Kanayama, Yuki Yoshida, Takayuki Yamaguchi, Xiang Yu, Guang Liang, Xinyao Liu, Guan-Zhang Wang, Wei-Ta Chu, Bing-Cheng Chuang, Jia-Hua Lee, Pin-Tseng Kuo, I-Hsuan Chu, Yi-Shein Hsiao, Cheng-Han Wu, Po-Yi Wu, Jui-Chien Tsou, Hsuan-Chi Liu, Chun-Yi Lee, Yuan-Fu Yang, Kosuke Shigematsu, Asuka Shin, and Ba Tran, "MVA 2025 Small Multi-Object Tracking for Spotting Birds Challenge: Dataset, Methods, and Results," Proceedings of International Conference on Machine Vision and Applications, 2025.
Guan-Zhang Wang and Wei-Ta Chu, "Intersection-based Ensemble for Small Multi-Object Tracking in Challenging Environments," Proceedings of International Conference on Machine Vision and Applications, 2025.
Shih-Wen Liu, Hsuan-Yu Fan, Wei-Ta Chu, Fu-En Yang, and Yu-Chiang Frank Wang, "Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning," Proceedings of Medical Imaging with Deep Learning, 2025.
Jia-Yi Chen and Wei-Ta Chu, "Multimodal Fusion for Dementia Detection Using Voice and Facial Features," Proceedings of IEEE International Symposium on Circuits and Systems, 2025.
Zong-Lin Li and Wei-Ta Chu, "MapLlama: a Two-Stage Approach for Map Question Answering Using a Fine-Tuned Large Language Model," Proceedings of IEEE International Symposium on Circuits and Systems, 2025.
Ti-Mo Lin, Jhong-Yun Liu, Shin-Jie Lee, Ci-Yin Zhang, and Wei-Ta Chu, "Detecting Visually Disrupted Text Overlaps on Webpage Using CNN," Proceedings of International Symposium on Artificial Life and Robotics, 2025.
Liang-Chia Chen and Wei-Ta Chu, "HCV: Lightweight Hybrid CNN-Vision Transformer for Visual Object Tracking," Proceedings of International Conference on Multimedia Modeling, pp. 45--59, 2025.
Cheng-Kang Tan and Wei-Ta Chu, "CS-HOI: Human Object Interaction Detection Enhanced by Common Sense," Proceedings of ACM International Conference on Multimedia in Asia, Article No. 75, 2024.
Guan-Yu Wu and Wei-Ta Chu, "Incremental Few-Shot Object Detection by Leveraging External Information from Large Multimodal Models," Proceedings of ACM International Conference on Multimedia in Asia, Article No. 19, 2024.
Ayush Dubey, Shiv Ram Dubey, Satish Kumar Singh, and Wei-Ta Chu, "Transformer-based Clipped Contrastive Quantization Learning for Unsupervised Image Retrieval," accepted to IEEE International Conference on Image Processing , 2024.
Yu-Chen Lai and Wei-Ta Chu, "Unsupervised Anomaly Detection on Histopathology Images Using Adversarial Learning and Simulated Anomaly," accepted to UK Conference on Medical Image Understanding and Analysis , 2024.
Yi-Cheng Liu and Wei-Ta Chu, "Chart Question Answering based on Modality Conversion and Large Language Models," Proceedings of ACM Workshop in AI-powered Question & Answering Systems, pp. 19--24, 2024.
Yi-Peng Wang and Wei-Ta Chu, "Multiple Player Tracking with 3D Projection and Spatio-temporal Information in Multi-view Sports Videos," Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 2024.
Ci-Ying Zhang and Wei-Ta Chu, "Occlusion-Aware Manga Character Re-identification with Self-Paced Contrastive Learning," Proceedings of ACM International Conference on Multimedia in Asia, Article No. 29, 2023.
Ching-Ching Yang, Wei-Ta Chu, and Shiv Ram Dubey, "Weakly-Supervised Deep Image Hashing based on Cross-Modal Transformer," Proceedings of International Conference on Machine Vision Applications, 2023.
Yi-Ting Yang and Wei-Ta Chu, "Manga Text Detection with Manga-Specific Data Augmentation and Its Applications on Emotion Analysis," Proceedings of International Conference on Multimedia Modeling, 2023. (Best Poster Award)
Tsung-Han Ho, Chen-Yin Yu, Tsai-Yen Ko, and Wei-Ta Chu, "The VTF Dataset and a Multi-Scale Thermal-to-Visible Face Synthesis System," Proceedings of International Conference on Multimedia Modeling, 2023.
Wei-Chi Chen and Wei-Ta Chu, "SSSD: Self-Supervised Self Distillation," Proceedings of IEEE Winter Conference on Applications of Computer Vision, pp. 2770-2777, 2023.
Jia-Hua Tsai and Wei-Ta Chu, "Multimodal Fusion with Cross-Modal Attention for Action Recognition in Still Images," Proceedings of ACM Multimedia Asia, Article No. 31, 2022.
Shiv Ram Dubey, Satish Kumar Singh, and Wei-Ta Chu, "Vision Transformer Hashing for Image Retrieval," Proceedings of IEEE International Conference on Multimedia & Expo, 2022.
Yu-Heng Huang and Wei-Ta Chu, "Indie Games Popularity Prediction by Considering Multimodal Features," Proceedings of International Conference on Multimedia Modeling, 2022.
Wei-Ta Chu and Wei-Ting Cao, "Multi-Class Novelty Detection with Generated Hard Novel Features," Proceedings of British Machine Vision Conference, 2021.
Sian-Yao Huang and Wei-Ta Chu, "OSNASLib: One-Shot NAS Library," Online Proceedings of ICCV Workshop on Neural Architectures: Past, Present and Future, 2021.
Sian-Yao Huang and Wei-Ta Chu, "PONAS: Progressive One-shot Neural Architecture Search for Very Efficient Deployment," Proceedings of International Joint Conference on Neural Networks, 2021.
Sian-Yao Huang and Wei-Ta Chu, "Searching by Generating: Flexible and Efficient One-Shot NAS with Architecture Generator," Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 983-992, 2021.
Wei-Ta Chu and Ping-Shen Huang, "Thermal Face Recognition based on Multi-Scale Image Synthesis," Proceedings of International Conference on Multimedia Modelling, 2021.
Huan-Hua Chang, Wen-Cheng Chen, Wan-Lun Tsai, Min-Chun Hu, and Wei-Ta Chu, "Autoregressive Generation for Basketball Defensive Trajectory," Proceedings of ACM Multimedia Asia, 2020.

Local Conferences
Jhong-Yun Liu, Ti-Mo Lin, Shin-Jie Lee, Ci-Yin Zhang, and Wei-Ta Chu, "A Siamese Network-Based Visual Structure Comparison Approach for Addressing the Dynamic Content Challenge in Web Visual Testing," Taiwan Conference on Software Engineering, 2024.
Yi-Ju Sung and Wei-Ta Chu, "A Manga Browser based on Convolution Neural Network," Proceedings of the 33rd Computer Vision, Graphics, and Image Processing Conference, 2020.
黃正宇, 游家祥, 朱威達, “視覺化故事書產生引擎,” 民生電子研討會, pp. 1805-1813, 2011.
張豐麒, 黃俊璋, 何秉軒, 朱威達, "跨智慧型手機與PC 之直覺操作介面設計," 民生電子研討會, pp. 127-131, 2010.
W.-T. Chu, P.-C. Chuang, and J.-J. Yu, "Video Copy Detection Based on Bag of Trajectory and Two-Level Approximate Sequence Matching ," Proceedings of the 23th Computer Vision, Graphics, and Image Processing Conference, 2010.
W.-T. Chu, C.-T. Hung, and J.-J. Yu, "Object Segmentation Based on Common Information between Images," Proceedings of the 22th Computer Vision, Graphics, and Image Processing Conference, 2009.
W.-T. Chu, M.-C. Tien, Y.-T. Wang, C.-W. Chou, K.-Y. Hsieh, and J.-L. Wu, "Event Detection in Tennis Matches Based on Real-World Audiovisual Cues," Proceedings of the 20th Computer Vision, Graphics, and Image Processing Conference, pp. 541-548, 2007. (佳作論文獎)
W.-T. Chu and J.-L. Wu, "Explicit Baseball Event Detection by Combining Visual and Speech Information," Proceedings of the 19th Computer Vision, Graphics, and Image Processing Conference, pp. 249-252, 2006. (invited paper)
W.-T. Chu and J.-L. Wu, "Detection of Spirited Incidental Music in Movies," Proceedings of Workshop on Computer Music and Audio Technology, 2005.
W.-H. Cheng, W.-T. Chu, and J.-L. Wu, "A Visual Focus Detection Framework for Video Sequences," Proceedings of the 2004 Workshop on Consumer Electronics and Signal Processing, 2004. (Best paper award)
K.-Y. Liu, H.-L. Wu, M.-W. Lai, W.-T. Chu, B.-H. Wu, and H.-Y. Chen, "Exploring Interactive Multimedia Technologies for Web-based ESL Learning," Proceedings of the Sixth International Conference on Multimedia Language Education, ROCMELIA, pp. 181-191, 2002.
賴茂濰, 朱威達, 陳恆佑, "網路式英語聽力訓練系統," 民生電子研討會, 2001.
陳恆佑, 宋如瑜, 朱威達, 吳獻良, "多媒體教學系統在華語文課程上的應用," 5th Global Chinese Conference on Computers in Education, pp. 1060-1066, 2001.

Demonstration
Guan-Yu Wu, Chun-Ho Hung, Hsuan-Wei Chen, and Wei-Ta Chu, "A Trajectory-based Statistics and Tactics Analysis System for Table Tennis," Proceedings of ACM International Conference on Multimedia in Asia, Article No. 107, 2023.
Ting-Hsuan Chou and Wei-Ta Chu, "Automatic Baseball Pitch Overlay," Proceedings of ACM International Conference on Multimedia Retrieval, 2021.
W.-T. Chu and H.-H. Wang, “動畫轉漫畫技術,” Computer Vision, Graphics, and Image Processing Conference, 產學媒合發表會, 2012.
W.-T. Chu and C.-C. Huang, “視訊新聞報導切割與群聚技術,” Computer Vision, Graphics, and Image Processing Conference, 產學媒合發表會, 2011.
W.-T. Chu and C.-H. Lin, "Automatic Summarization of Travel Photos Using Near-Duplication Detection and Feature Filtering," Proceedings of ACM Multimedia Conference, Multimedia Grand Challenges, pp. 1129-1130, 2009.
J.-C. Chen, W.-T. Chu, J.-H. Kuo, C.-Y. Weng, and J.-L. Wu, "Audiovisual slideshow: Present Your Journey by Photos," Proceedings of ACM Multimedia Conference, pp. 955-956, 2006.
K.-Y. Liu, N. Huang, B.-H. Wu, W.-T. Chu, and H.-Y. Chen, "The WSML System: Web-based Synchronization Multimedia Lecture System," Proceedings of ACM Multimedia Conference, pp. 662-663, 2002.

Multimedia and Computer Vision Laboratory

National Cheng Kung University

Publications