
Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。
Tarsier:字节跳动推出的大规模视频语言模型家族
Tarsier的主要功能特色
- 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。
- 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。
- 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。
- 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。
- 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。
Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。
在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。
论文:https://arxiv.org/abs/2501.07888
Code: https://github.com/bytedance/tarsier
Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K
Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b
数据统计
相关导航

英文写作神器

AI小说家
AI小说生成器

VAS视频加字幕
AI一键生成字幕文件

CopyWeb
CopyWeb是一款由AI驱动的网页克隆工具,能够在几秒钟内将任何网站设计转化为生产就绪代码。无论是屏幕截图还是网站URL,CopyWeb都能即时生成干净、响应迅速的代码,支持导出到React、Vue或纯HTML/CSS格式。

AI 提示词生成器
What is AI 提示词生成器? AI Prompt G...

v0.dev
v0.dev是一个用户界面设计在线AI生成工具,它可以帮助我们借助AI人工智能技术来设计用户界面。该工具由知名的前端开发框架Next.js提供支持,我们可以输入文本提示词来快速生成各种网页和应用的UI界面代码。

Typral
Typral是一款高效的AI写作浏览器插件,旨在提升用户的文本处理体验。它支持文本润色、简化、翻译及 AI 回复等多种操作,使用方法简单,只需选中文本并选择对应操作,即可实现自动替换。该助手能够快速优化文章、日报等各种文本。

怪兽AI数字人
数字人制作公司
暂无评论...