C3PO
用于从单个句子的用户反馈中微调 LLM 模型,实现更符合用户偏好且不过度概括化的结果。
总访问量: 0
1,560
简介
C3PO 是一种基于用户反馈的 LLM 模型对齐技术,可以从单个反馈句子中对 LLM 进行调整,避免过度概括化。该技术提供了参考实现、相关基准线和必要组件,方便研究论文中提出的技术。
截图
产品特色
从反馈中样本化相关类别、提示和完成
训练基准模型以微调每个反馈
比较方法和基准响应
流量来源
直接访问0.00%外链引荐0.00%邮件0.00%
自然搜索0.00%社交媒体0.00%展示广告0.00%
最新流量情况
月访问量
0
平均访问时长
0.00
每次访问页数
0.00
跳出率
0
总流量趋势图