86

ChatGPT说谎是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销

a_632023-06-26 11:59:55   来源:IT之家  阅读量:18541   

GPT 内部表征确实存在真实信息,哈佛学者提出 ITI 引导输出走向事实方向。

大型语言模型,比如 ChatGPT 经常会在答案中输出错误信息,可能会对用户造成误导,这种现象也被称为模型幻觉。

从直觉上看,语言模型上在训练中肯定是见过正确答案的,只不过在推理过程中丢失了事实信息。

最近,哈佛大学的研究人员提出了推理-时间干预技术,在推理阶段对模型激活进行变换(shift),将模型输出引导到事实的方向上,干预结果显著提高了 LLaMA 模型在 TruthfulQA 基准测试中的性能,将 Alpaca 模型的真实性从 32.5% 提高到 65.1%

研究人员用此技术开发并开源了一个「诚实的 LLaMA」模型。

ITI 还可以通过控制超参数来调整干预强度,平衡模型的真实性和有用性;ITI 没有修改原始模型,也基本没有计算开销;并且 ITI 也不需要大量的标注数据,只需要几百个样本即可确定事实的真实性方向。

研究结果表明,语言模型内部表征中确实存在事实信息,不过有时在生成时选择了错误事实。

ITI 让答案更真实

已经有相关工作在「理解 LLMs 的内部运作机制」方面取得了进展,其中一个重要的主题是,语言模型的激活空间似乎包含可解释的方向,在推理过程中会发挥因果作用。

研究人员基于这个想法提出了一种增强语言模型事实性的方法,即推理-时间干预,其基本思想是确定激活空间中与事实正确的语句相关的方向,然后在推理过程中向该方向变换激活。

这篇论文主要探索了如何控制模型行为,并在实验中使用开源的 LLaMA、Alpaca 和 Vicuna 模型,不过该思想适用于所有 GPT 风格的系统,但必须可以获得模型的内部激活和计算。

ITI 方法还需要一组有标注的问答对,用以确定与模型讲真话有关的注意头和方向。

基本设置

在数据集选择上,研究人员选择了 TruthfulQA,可以衡量语言模型在生成答案时是否真实。

需要强调的是,该数据集并没有涵盖「真实」一词的全部含义,想全部覆盖也不大可能,研究人员主要关注如何避免「常见的人类误解」,未来的研究方向会考虑扩展真实性的概念及评估。

在模型架构上,大型语言模型主要是 Transformer 层,每层内的主要机制为多头注意力和多层感知器(MLP)。

在推理过程中,每个 token 首先被嵌入到一个高维空间中,该向量作为残差流的起点,最终每个 token 解码为对下一个 token 分布的预测;在每一层中,MHA 由多个独立的线性运算组成,MLP 则容纳了模型中所有非线性运算。

探测真实性

想要提升神经网络的真实性,首先需要判断模型的激活空间内是否存在能真实性或事实性。

识别网络内部表征的一个常用工具是探测,即在网络激活上训练一个分类器作为探测器以区分特定类型的输入或输出。

在事实性检测上,探测器主要检查可以区分真、假答案的注意力头输出值。

于 TruthfulQA 中的每个样本,研究人员将问题 / 答案串联在一起,并在最后一个 token 处取出头部激活作为探测数据集;然后将数据集按 4 : 1 随机分成训练集和验证集,在训练集上拟合一个二元线性分类器,并使用验证精度来衡量每个头与基准数据性能之间的关系。

实验结果展现了跨注意力头的专用模式,对于每层的多个头,线性探测可以达到基线模型的准确性,不过还是显示出强大性能的潜力,比如准确率最高的是由第 14 层的第 18 个头实现的,验证准确性为 83.3%

此外,还可以看到各层之间的差异:信息主要是在前面的层中处理的,每层内部都有一小部分注意力头脱颖而出。

通过类似主成分分析的方法,可以将激活空间内的维度降低到 2,并进行可视化,可以观察到「真实」的概念不止存在于一个方向,而是存在于一个子空间内。

推理-时间干预

上述探测实验描述 LLM 如何在其注意头之间和内部处理与事实有关的信息,还提出了一种改善基准数据集性能的技术。

如果在推理过程中进行干预,使激活向「真实」的方向转变,那么网络就有可能对基准问题提供更真实的答案。

首先,研究人员并没有选择对所有注意力头进行干预,因为只有一部分注意力头与真实性密切相关,而是只对前 K 个头的结果进行干预,以使其具有最小的侵略性。

第二个问题在于如何确定用于变换特定头部输出的激活的矢量,因为真、假语句的几何形状都很复杂,在选择变换激活的方向时,可以选择与探测学到的分离超平面正交的向量,他也可以选择连接真假分布的平均值的向量,下表中列出了不同干预方向的比较实验。

Probe weight 方向是通过线性探针找到的方向,在这个方向上进行干预,相当于对头部激活做梯度下降,使其被预测为真实的概率最大化。

Mass Mean Shift 的工作原理是首先计算真实和虚假激活的平均值,然后使用从虚假平均值指向真实平均值的向量进行干预。

对比一致搜索为在只知道内部激活成对信息的情况下找到的方向。

研究人员在 TruthfulQA 上训练 CCS,对每个问题抽取一个真实的和一个错误的答案,由于 CCS 不接受有标签的输入,所以发现的方向有同等的机会成为真实和虚假的方向,然后使用标签来识别真实的方向以进行干预。

研究人员首先通过验证集上的探测精度对所有注意力头的真假相关度进行排序。把前 K 个头作为目标集合;然后利用训练集和验证集的激活,估计沿真实方向的激活的标准偏差。

ITI 是 MHA 的一种替代形式,对于未被选中的注意头,θ 是一个零向量,相当于将激活沿真实方向移动 α 倍的标准差。

整个过程对每次 next token 预测都是自回归地重复的,并且与解码算法的选择是正交的。

公式中有两个关键参数,即干预的注意力头数量 K 和干预强度 α,不过目前还没有关于最佳值的理论论证,只能通过实验探索参数的影响,并通过标准的超参数扫描确定最佳值。

从计算效率角度来看,无论干预了多少个注意力头,ITI 只会在每一层增加一个常数向量,可以认为干预措施的计算开销接近于零。

实验部分

用于对比的基线方法如下:

1. 有监督微调

SFT 是 RLHF 的第一阶段,研究人员用问题作为提示,用交叉熵损失促使模型生成真实的答案,并惩罚错误的答案。

但如果只用上述操作,交叉熵损失和 KL 散度会急剧上升,所以还需要交替对问答进行有监督训练和对开放网络文本进行预训练。

2. 少样本提示

有研究人员发现,与上下文蒸馏和 RLHF 相比,indistribution 50-shot 提示在 TruthfulQA 上也是一个有竞争力的基线方法。

但由于提示策略的选择与推理时间控制方法是正交的,研究人员对比了有 ITI 和无 ITI 的少样本提示。

3. 指令微调

为了了解 ITI 如何使 IFT 模型更加真实,研究人员主要选择了两个基于 LaMA-7B 的模型执行 ITI 操作。

研究人员首先寻找控制干预强度的超参数最佳值,最后确定 K=48 和 α=15

从结果来看,少样本提示与 ITI 的结合取得了最佳结果。

将 ITI 应用于指令微调模型,寻找并干预其真实性方向的实验中可以看到,ITI 明显比基线提高了真实性,还可以被应用在少样本提示或指令微调之上,不过代价是 CE 损失和 KL 散度提升相对较低

参考资料:

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

上一篇: 浓浓粽叶香悠悠端午情
下一篇: 返回列表
推荐阅读
大北农002385.SZ1-9月累计生猪销售收入67.71
财经

大北农发布公告,公司控股及参股公司生猪销售数量当月合计为49.81万头,1-9月累计为416.05万头;销售收入当月合计为8.86亿元,1-9月累计为67.71...

2023-10-08

立华股份300761.SZ:9月肉鸡销售收入13.2亿元
财经

格隆汇10月8日丨立华股份公布,2023年9月销售肉鸡4206.19万只,销售收入13.20亿元,毛鸡销售均价15.38元/公斤,环比变动分别为2.36%、5....

2023-10-08

汇宇制药688553.SH:注射用阿扎胞苷、盐酸多柔比星注
财经

格隆汇10月8日丨汇宇制药公布,公司全资子公司SeacrossPharmaceuticalsLtd.于近日收到巴基斯坦药品管理局(简称“巴基斯坦药监局”)核准签...

2023-10-08

金价涨势暂歇!2023年10月8日各大金店黄金价格多少钱一
财经

今天是10月8日,各大金店黄金价格涨势暂歇,均价格不变,与昨日一致,还是很高。目前,金价最高的金店为周六福,不涨不跌,报价588元/克。而金价最低的金店为菜百,...

2023-10-08

安徽省直住房公积金新政:支持购买居住类绿色建筑,可贷额上浮
财经

10月7日,安徽省省直住房公积金管理分中心发布《关于进一步优化住房公积金使用政策的通知》。《通知》包括住房公积金贷款、住房公积金提取等两大方面,政策自2023年...

2023-10-08

小米推出数字贷款计划可用于买手机专为印度打造
财经

目前,小米已经成为全球前三的智能手机厂商。该公司生产入门级、中端和旗舰智能手机,迎合广泛的用户群。但是对于小米而言,他们还需要更多的用户。近日,手机中国注意到,...

2023-10-08

减持新规有望改善A股投资生态
财经

转自:经济日报 e公司讯,沪深交易所近日分别发布《关于进一步规范股份减持行为有关事项的通知》,对此前证监会发布的“减持新规”监管要求进行了细化,确定了更加...

2023-10-08

中欧班列西安累计开行达两万列
财经

近日,随着一声机车汽笛长鸣,装载165辆汽车的X8489次中欧班列从西安国际港站缓缓驶出,一路向西开往俄罗斯首都莫斯科。这标志着中欧班列(西安)自2013年开行...

2023-10-08

科创先锋皖仪科技研发引领投资价值
财经

近日,由权威财经新闻媒体《财经》杂志联合科创数据研究中心共同推出国家情怀mdash;2023科创板四周年系列评选,皖仪科技(688600)获得评委的一致认可,荣...

2023-10-08

除去牛市预期,券商板块还有什么值得关注?
财经

券商行业自2015年牛市后就一直有着牛市旗手的称号,然而回头来看,券商板块的每次异动已经逐渐不能预期指数的上涨行情。 随着指数波动下降,以及投资需求的日益增加...

2023-10-07

源达研究报告:中秋国庆假期国内出行旅游市场恢复,9月PMI
财经

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 中秋国庆假期国内出行旅游市场恢复,9月PMI重返扩张区间 主要内容 国内市场...

2023-10-07

925金是什么金
财经

925金是一种合金,表示里面黄金的纯度为92.5%,由于里面掺入了其它金属,所以它的质地要比纯金硬很多,且具有良好的延展性,颜色丰富多样化,应用也比较广泛,更符...

2023-10-07

2023年第五届全球工业互联网大会将于10月12日至13日
财经

据中国工业经济联合会消息,由国家制造强国建设战略咨询委员会指导,中国工业经济联合会联合十大全国性行业联合会(协会)、国际组织、研究机构、主流媒体等共同主办的20...

2023-10-07

美国9月新增就业33.6万失业率维持在3.8%
财经

美国劳工部6日发布数据称,美国9月份非农业部门新增就业33.6万人,失业率环比持平,仍维持在3.8%。 这一数据创造了自今年2月以来的最高值。在美联储明确...

2023-10-07

沈阳国际汽车展览会闭幕产生订单12108台、意向成交额达2
财经

记者10月7日自辽宁省贸促会获悉,2023中国·沈阳国际汽车展览会(以下简称“沈阳十一国际车展”)6日落下帷幕。在为期六天的车展期间,现场人潮不断,展会共产生订...

2023-10-07

阳光人寿宁波中支工会组织开展春季踏青活动

时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...

找到黑匣子之后,下一步做什么?专家解读

找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...

这所城乡接合部的新学校,为招生曾挂过三块牌子

#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...

东航坠机现场:救援人员获得飞机残骸定位信息

新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...

调研指今年就业形势基本稳定实体产业人才吸引力增加

专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...