关于Packing和 直接Batch的loss区别？

论文中指出Packing Loss和直接Batch Loss不一致，是基于这个公式：
<img width="310" alt="image" src="https://github.com/THUDM/LongAlign/assets/10386094/e3d6988f-873e-42ed-89df-621e34ff23b3">
即：以样本为粒度，算loss 先在样本内平均，再batch内平均，两步走。

基于我的认知，SFT训练中一般是以Token为粒度算最终的loss的，即 "target token loss 总和 / target token 总数"，并非样本粒度。

我看了下你的代码实现，即modeling_llama.py文件中按直接Batch算，**loss是 从 batch*seq 直接Flat成一个seq，还是直接以token为粒度计算的loss**，并非样本粒度(即先在seq 求平均，再在batch求平均) 
<img width="525" alt="image" src="https://github.com/THUDM/LongAlign/assets/10386094/e9fdf5ad-972c-4846-b87d-3ee18a2b1e72">

有两个问题讨论:
1. SFT中loss 最后一步的平均， 究竟应该以Token为粒度 还是以样本为粒度？
2. 如果以Token为粒度，我认为Packing和非Packing是等价的


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

关于Packing和直接Batch的loss区别？ #3

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

关于Packing和 直接Batch的loss区别？ #3

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions

关于Packing和直接Batch的loss区别？ #3