Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference

Wenjie Qiu; Yi-Chen Li; Xuqin Zhang; Tianyi Zhang; Yihang Zhang; Zongzhang Zhang; Yang Yu

doi:10.1007/s11704-026-51483-4

Front. Comput. Sci. ›› DOI: 10.1007/s11704-026-51483-4

LETTER

Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference

Wenjie Qiu ¹^,²
, Yi-Chen Li ¹^,²^,³
, Xuqin Zhang ¹^,²
, Tianyi Zhang ¹^,²
, Yihang Zhang ¹^,²
, Zongzhang Zhang ¹^,²
, Yang Yu ¹^,²^,³

Author information +

History +

PDF (396KB)

Cite this article

Download citation ▾

Wenjie Qiu, Yi-Chen Li, Xuqin Zhang, Tianyi Zhang, Yihang Zhang, Zongzhang Zhang, Yang Yu. Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference. Front. Comput. Sci. DOI:10.1007/s11704-026-51483-4

登录浏览全文

4963

注册一个新账户忘记密码

References

Publishing order | Descend order by publishing year | Descend order by cited within

RIGHTS & PERMISSIONS

Higher Education Press 2026

PDF (396KB)

209

Accesses

Citation

Detail

Sections

Recommended

About the journal

Aims & scope

Description

Editorial board

Abstracting / indexing

Contact us

Browse

Just accepted

All volumes and issues

Collections

Featured articles

Most accessed

Most cited

Collections

Multimedia collections

Authors & reviewers

Online submission

Call for papers

Guidelines for authors

Download templates

Guidelines for reviewers

Cite this article

References

RIGHTS & PERMISSIONS

Just Accepted