Publications

Dongmei Zhang*, Chang Li*, Ray Zhang*, Shenghao Xie, Wei Xue, Xiaodong Xie, Shanghang Zhang (2023). FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection.

PDF Cite DOI URL

Sizhe Li, Chang Li, Minghang Zheng, Yang Liu (2022). Phrase-level Prediction for Video Temporal Localization. Proceedings of the 2022 International Conference on Multimedia Retrieval.