Ruizhe Shi / Personal Site

These slides are only for reference purpose.

The crucial role of samplers in online direct preference optimization

[slide][recording]
Logit mixing and RLHF paper reading

[slide]
Decoding-time language model alignment with multiple objectives

[slide][recording]
Unleashing the power of pre-trained language models for offline reinforcement learning

[slide]

Talks