你的位置:欧美黄瓜视频在线观看_呦男呦女视频精品导航_少妇苏霞白洁刺激A片_美女被强奷到高潮免费_强奷乱码中文字幕在线_久久青青草原一区二区_变态乱另类仑小说专区 > 欧美三级 欧美一级 >


中文成人Av人妻综合然后将其诈欺于更复杂、更大的模子

发布日期:2022-09-23 05:50    点击次数:117


欧美早期经典AV片中文成人Av人妻综合

 Transformer 是 Google 团队在 2017 年 6 月冷漠的 NLP 经典之作,由 Ashish Vaswani 等人在论文《 Attention Is All You Need 》中冷漠。自 Transformer 出现以来,便在 NLP、CV、语音、生物、化学等界限引起了诸多进展。

Transformer 在本质寰球中的诈欺越来越庸俗,举例 GPT-3 、LaMDA 、Codex 等都是基于 Transformer 架构构建的。可是,跟着基于 Transformer 模子的扩张,其绽开性和高容量为出人料想的以至无益的步履创造了越来越大的空间。即使在大型模子观察完成数年后,创建者和用户也会络续发现往时从来没见过的模子问题。

惩处这些问题的一个路线是机械的可讲明性(mechanistic interpretability),即对 transformers 野心流程进行逆向工程,这有点雷同于圭臬员何如尝试将复杂的二进制文献逆向工程为人类可读的源代码。

若是逆向工程可行,那么咱们就会有更系统的设施来讲明刻下模子的安全问题、识别问题,以至可能预感明天尚未构建的模子安全问题。这有点雷同于将 Transformer 的黑箱操作进行逆向,让这一流程变得明晰可见。之前有考虑者竖立了 Distill Circuits thread 神志,曾尝试对视觉模子进行逆向工程,但到当今为止还莫得可比的 transformer 或讲话模子进行逆向工程考虑。

在本文中,由 25 位考虑者参与撰写的论文,尝试继承最原始的才能逆向 transformer。该论文由 Chris Olah 草拟,Chris Olah 任职于 Anthropic 人工智能安全和考虑公司,主要从事逆向工程神经鸠集考虑。之后 Neel Nanda 对论文初稿进行了要紧修改,Nanda 当今是 DeepMind 的又名考虑工程实习生。Nelson Elhage 对论文进行了详确的剪辑以擢升论著作节明晰度,Nelson Elhage 曾任职于 Stripe 科技公司。

左:Neel Nanda;右:Christopher Olah

磋议到讲话模子的复杂性高和限制大等特质,该考虑发现,从最约略的模子驱动逆向 transformer 最有恶果。该考虑旨在发现约略算法样式、主题(motifs)或是框架,然后将其诈欺于更复杂、更大的模子。具体来说,他们的考虑范围仅包括唯有防护力块的两层或更少层的 transformer 模子。这与 GPT-3 这么的 transformer 模子酿成解析的对比,GPT-3 层数多达 96 层。

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

论文地址:https://transformer-circuits.pub/2021/framework/index.html#acknowledgments

该考虑发现,通过以一种新的但数学上等效的边幅主张化 transformer 操作,咱们概况贯通这些小模子并深远了解它们的里面运作边幅。值得防护的是, 影音先锋亚洲熟女AV网考虑发现特定的防护头,本文称之为归纳头(induction heads),不错在这些小模子中讲明高下体裁习,况且这些防护力头只在至少有两个防护层的模子中发展。此外,该考虑还先容了这些防护力头对特定数据进行操作的一些示例。

各章节骨子概览

为了探索逆向工程 transformers 面对哪些挑战,考虑者对几个 attention-only 的 toy 模子进行了逆向功能。

领先是零层 transformers 模子的二元统计。考虑者发现,二元表不错径直通过权重打听。

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

在究诘更复杂的模子之前,磋议零层(zero layer)transformer 很有效。这类模子继承一个 token,镶嵌,再取消镶嵌,以生成臆测下一个 token 的 logits

由于这类模子无法从其他 tokens 传输信息,因此只可从刻下 token 臆测下一个 token。这意味着,欧美熟妇在线A片W_UW_E 的最优步履是近似二元对数似然。

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

零层 attention-only transformers 模子。

其次,单层 attention-only transformers 是二元和 skip 三元模子的相接。同零层 transformers 同样,二元和 skip 三元表不错径直通过权重打听,无需运行模子。这些 skip 三元模子的抒发材干惊人,包括完结一种终点约略的高下文内学习。

关于单层 attention-only transformers 模子,有哪些旅途扩张(path expansion)妙技呢?考虑者提供了一些。

如下图所示,单层 attention-only transformers 由一个 token 镶嵌构成,后接一个防护力层(单独诈欺防护力头),临了是打消镶嵌:

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

使用之前取得的张量标记(tensor notation)和防护力头的替代表征,考虑者不错将 transformer 表征为三个项的乘积,具体如下图所示:

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

考虑者继承的中枢妙技是约略地扩张乘积,行将乘积(每个项对应一个层)调度为一个和,其中每个项对应一个端到端旅途。他们默示,每个端到端旅途项都易于贯通,不错独赶紧进行推理,并概况重叠组合创建模子步履。

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

临了,两层 attention-only transformers 模子不错使用防护力头组合完结复杂得多的算法。这些组划算法也不错径直通过权重检测出来。需要防护的是,两层模子稳妥防护力头组合创建「归纳头」(induction heads),这是一种终点通用的高下文内学习算法。

具体地,当防护力头有以下三种组合聘请:

Q - 组合:W_Q 在一个受前边头影响的子空间中读取; K - 组合:W_K 在一个受前边头影响的子空间中读取; V - 组合:W_V 在一个受前边头影响的子空间中读取。

考虑者默示,Q - 和 K - 组合与 V - 组合截然有异。前两者都对防护力样式产生影响,允许防护力头抒发复杂得多的样式。而 V - 组合对一个防护力头专注于某个给定位置时所要传输的信息产生影响。末端是,V - 组合头变现得更像一个单一单位,并不错磋议用来创建零碎的「凭空防护力头」。

关于 transformer 有一个最基础的问题,即「何如野心 logits」?与单层模子使用的设施同样,考虑者写出了一个乘积,其中每个项在模子中都是一个层,并扩张以创建一个和,其中每个项在模子中都是一个端到端旅途。

经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文

其中,径直旅途项和单个头项与单层模子中的交流。临了的「凭空防护力头」项对应于 V - 组合。凭空防护力头在主张上终点爱慕爱慕,但在实行中,考虑者发现它们频频无法在小限制的两层模子中发达要紧作用。

此外,这些项中的每一个都对应于模子不错完结更复杂防护力样式的一种边幅。在表面上,很难对它们进行推理。但当究诘到归纳头时,会很快在具体实例顶用到它们。

 



    热点资讯

    相关资讯