Ltx2.3-VBVR-lora-I2V

【LTX-2.3 VBVR LoRA - 视频推理】
在 VBVR(视频推理基准)数据集上对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。
【训练数据】
为确保训练质量,我们对官方数据集中的全部 1,000,000 个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数设置,batch_size=16 且 rank=32,以防止因 rank 过大而导致灾难性遗忘。
VBVR 数据集包含 200 种推理任务类别,每类任务约有 5,000 个变体,总计约 100 万条视频。主要任务类型包括:
物体轨迹:物体移动至目标位置
物理推理:滚动球体、碰撞、重力
因果关系:条件触发、连锁反应
空间关系:相对位置、路径规划
【模型详情】
基础模型:ltx-2.3-22b-dev
训练方法:LoRA 微调
LoRA:Rank32
有效批大小:16
混合精度:BF16
【LoRA 能力】
该 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的能力:
增强的复杂提示理解能力:能够准确解析包含多对象、多条件、详细空间描述和时间序列的提示,在生产场景中减少提示误读。
改进的运动动态效果:生成平滑且符合物理规律的物体运动,具有自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。
时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。
精确的时间控制:可根据提示语义,精准控制动作持续时间、节奏以及多个运动元素之间的同步。
多物体交互:能够处理多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。
摄像机与构图稳定性:在整个序列中保持一致的摄像机视角和画面构图,避免不必要的镜头抖动或意外的视角变化。
【训练配置】
配置项 值
学习率 1e-4
调度器 Cosine
梯度累积 16 步
梯度裁剪 1.0
优化器 AdamW
Model Information
【LTX-2.3 VBVR LoRA - 视频推理】
在 VBVR(视频推理基准)数据集上对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。
【训练数据】
为确保训练质量,我们对官方数据集中的全部 1,000,000 个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数设置,batch_size=16 且 rank=32,以防止因 rank 过大而导致灾难性遗忘。
VBVR 数据集包含 200 种推理任务类别,每类任务约有 5,000 个变体,总计约 100 万条视频。主要任务类型包括:
物体轨迹:物体移动至目标位置
物理推理:滚动球体、碰撞、重力
因果关系:条件触发、连锁反应
空间关系:相对位置、路径规划
【模型详情】
基础模型:ltx-2.3-22b-dev
训练方法:LoRA 微调
LoRA:Rank32
有效批大小:16
混合精度:BF16
【LoRA 能力】
该 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的能力:
增强的复杂提示理解能力:能够准确解析包含多对象、多条件、详细空间描述和时间序列的提示,在生产场景中减少提示误读。
改进的运动动态效果:生成平滑且符合物理规律的物体运动,具有自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。
时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。
精确的时间控制:可根据提示语义,精准控制动作持续时间、节奏以及多个运动元素之间的同步。
多物体交互:能够处理多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。
摄像机与构图稳定性:在整个序列中保持一致的摄像机视角和画面构图,避免不必要的镜头抖动或意外的视角变化。
【训练配置】
配置项 值
学习率 1e-4
调度器 Cosine
梯度累积 16 步
梯度裁剪 1.0
优化器 AdamW