Â黨´«Ã½91mvÔÚÏß¹Û¿´

EN
www.dcsz.com.cn

色天堂APP大模型究竟是¸äŽä¹ˆ¸äè¶ÄÃÝš„?这å¯èƒ½æ˜¯è¿‘Á´Ÿæœ€Á´‰è¶£çš„高质釴¡±õ访谈

智东西8月20日报é“,8月16日,Anthropic最新一期官方油管视频上线,三ä½AI研究员抽ä¸å‰¥èŒ§ï¼Œæ·±å…¥æŽ¢è®¨AI研究ä¸åº”é¿å¼€çš„一个关键“谜团â€â€”—大模型究竟是怎么æ€è€ƒçš„? 在AIèŠå¤©å¯¹è¯ä¸­ï¼Œå¤§æ¨¡åž‹æœ‰æ—¶å›žç­”准确,有时å露胡编乱造的幻觉,甚至会出现溜须æ‹é©¬ã€æ’’è°Žã€æ¬ºéª—甚至å¨èƒäººç±»ç­‰å¤æ€ªè¡Œä¸ºã€‚它也会åƒäººä¸€æ ·ï¼Œå‡ºçŽ°å˜´æ¯”è„‘å­å¿«çš„æƒ…况,或者åƒä¸€ä½ç³Šå¼„学大师,奔ç€ç»™å‡ºç”¨æˆ·æ»¡æ„ç­”å¤çš„目标,心å£ä¸ä¸€åœ°æ•·è¡äº†äº‹ã€‚ 是怎样的内里机制驱动大模型演化出这些特性?它的高智商或弱智回答背åŽè—ç€ä½•ç§æ€è€ƒé“¾æ¡ï¼ŸAnthropic研究员们通过追踪研究,试图给大模型åšâ€œè„‘部扫æâ€ï¼Œç”¨ç§‘学方法æ­å¼€å¤§æ¨¡åž‹æœ‰åˆ«äºŽäººè„‘çš„æ€ç»´æ–¹å¼ã€‚ 4ã€å¤§æ¨¡åž‹æ‰§è¡Œæœ«ä½æ˜¯6çš„æ•°å­—å’Œæœ«ä½æ˜¯9的数字相加的计算任务时,都会激活åŒä¸€ç‰‡ç¥žç»å›žè·¯ï¼Œè¿™æˆ–许æ„味ç€å…¶å­¦ä¼šäº†å¯æ³›åŒ–的计算能力; 去年3月,Anthropicå‘布了一篇å为《追踪大语言模型æ€è€ƒè¿‡ç¨‹ï¼ˆTracing the thoughts of a large language model)》的论文,深度剖æžäº†å¤§è¯­è¨€æ¨¡åž‹åœ¨ä¸Žç”¨æˆ·äº¤æµè¿‡ç¨‹ä¸­çš„æ€è€ƒæµç¨‹ï¼Œä»¥åŠå…¶ä¸ºä»€ä¹ˆä¼šäº§ç”Ÿå¹»è§‰ç­‰ã€‚ 如今,Anthropicå¯è§£é‡Šæ€§ç ”究团队正在将大语言模型æ€è€ƒæµç¨‹å›¾ï¼Œä»¥ç›´è§‚清晰的方å¼å‘ˆçŽ°å‡ºæ¥ï¼Œä¾›æ›´å¤šç ”究人员å‚考。巴特森在播客中æåˆ°ï¼ŒAnthropic正在与开æºå¯è§£é‡Šæ€§å¹³å°Neuronpedia的团队åˆä½œï¼Œä¸Šçº¿äº†ä¸€äº›ä»–们制作的模型æ€è€ƒè¿½è¸ªå›¾ï¼Œæ¸…晰呈现了模型为什么会给出“达拉斯州首府是奥斯汀â€çš„é”™è¯¯ç­”æ¡ˆï¼ˆå¾—å…‹è¨æ–¯å·žé¦–府是奥斯汀)。 最新视频访谈由Anthropic研究员斯图尔特・里奇(Stuart Ritchie)主æŒï¼Œå‚与访谈的三ä½ç ”ç©¶å‘˜å‡æ¥è‡ªAnthropicå¯è§£é‡Šæ€§å›¢é˜Ÿï¼Œåˆ†åˆ«æ˜¯æ°å…‹ãƒ»æž—赛(Jack Lindsey)ã€ä¼Šæ›¼çº½å°”・阿梅森(Emmanuel Ameisen)ã€ä¹”什・巴特森(Josh Batson)。 主æŒäººï¼šå½“ä½ å’Œä¸€ä¸ªå¤§è¯­è¨€æ¨¡åž‹äº¤è°ˆæ—¶ï¼Œä½ åˆ°åº•åœ¨ä¸Žä»€ä¹ˆäº¤è°ˆï¼Œä½ æ˜¯åœ¨ä¸Žä¸€ä¸ªè¢«ç¾ŽåŒ–çš„è‡ªåŠ¨å®Œæˆæ¨¡å¼è¿™æ ·çš„东西交谈å—?你是在和类似互è”网æœç´¢å¼•擎的东西说è¯å—?或者你是在和æŸä¸ªçœŸæ­£åœ¨æ€è€ƒç”šè‡³åƒäººä¸€æ ·æ€è€ƒçš„东西说è¯å—? äº‹å®žè¯æ˜Žï¼Œç›¸å½“令人担忧的是,没有人真正知é“这些问题的答案,而在Anthropic,我们对寻找这些答案éžå¸¸æ„Ÿå…´è¶£ã€‚我们这样åšçš„æ–¹å¼æ˜¯ä½¿ç”¨å¯è§£é‡Šæ€§ï¼Œè¿™æŒ‡çš„æ˜¯ç ”究大语言模型的科学原ç†ã€å®¡è§†å…¶å†…部æ€è€ƒè¿‡ç¨‹ï¼Œå¹¶è¯•图明确在回答用户的问题时模型内部正在å‘生什么。 巴特森:我也是å¯è§£é‡Šæ€§å›¢é˜Ÿçš„æˆå‘˜ã€‚åœ¨æˆ‘è¿‡åŽ»çš„ç”Ÿæ´»ä¸­ï¼Œæˆ‘ç ”ç©¶äº†ç—…æ¯’çš„è¿›åŒ–ã€æ›¾ç»æ˜¯ä¸€ä½æ•°å­¦å®¶ï¼Œæ‰€ä»¥çŽ°åœ¨ï¼Œæˆ‘æ­£åœ¨ç ”ç©¶è¿™ç§ç”±æ•°å­¦æž„建出æ¥çš„“有机体â€çš„生物学特性。 主æŒäººï¼šä½ åˆšæ‰è¯´ä½ åœ¨è¿™é‡Œç ”ç©¶ç”Ÿç‰©å­¦ï¼ŒçŽ°åœ¨å¾ˆå¤šäººä¼šæ„Ÿåˆ°æƒŠè®¶ï¼Œå› ä¸ºå¤§è¯­è¨€æ¨¡åž‹æ˜¯ä¸€ä¸ªè½¯ä»¶ï¼Œä½†å®ƒä¸æ˜¯ä¸€ä¸ªæ­£å¸¸çš„软件。当你说你在研究软件实体的生物学或神ç»ç§‘å­¦æ—¶ï¼Œä½ èƒ½è°ˆè°ˆä½ çš„æ„æ€å—? å·´ç‰¹æ£®ï¼šæˆ‘æƒ³ï¼Œè¿™æ›´å¤šæ˜¯ä¸€ç§æ„Ÿè§‰ä¸Šçš„东西,而éžå­—é¢ä¸Šæ‰€æŒ‡çš„那样。或许这是语言模型的生物学,而éžè¯­è¨€æ¨¡åž‹çš„物ç†å­¦ã€‚或者当你ç¨å¾®å›žé¡¾ä¸€ä¸‹æ¨¡åž‹çš„è¿ä½œï¼Œå°±å¥½åƒæŸäººä¸æ˜¯ä¸“业人士一样:如果用户说“嗨â€ï¼Œä½ åº”该说“嗨â€ï¼›å¦‚果用户说“什么是一顿好的早é¤â€ï¼Œä½ åº”该说“åå¸â€ï¼Œå®ƒå†…部并没有存在一份éžå¸¸å†—长的清å•。 主æŒäººï¼šå½“你玩视频游æˆå¹¶é€‰æ‹©ä¸€ä¸ªæ–‡å­—指令时,自动出现的å¦ä¸€ä¸ªå›žå¤æ€»æ˜¯ä¸€è‡´çš„,在æŸç§æƒ…况下该说什么总是相对应的。 巴特森:ä¸ä»…ä»…åªæ˜¯ä¸€ä¸ªåºžå¤§çš„æ•°æ®åº“,模型接å—çš„è®­ç»ƒåªæ˜¯æœ‰å¤§é‡çš„æ•°æ®è¿›å…¥ï¼Œæ¨¡åž‹å¼€å§‹æ—¶ä¸æ“…长说任何è¯ï¼Œç„¶åŽå…¶å†…部部分会在æ¯ä¸ªä¾‹å­ä¸Šè¿›è¡Œè°ƒæ•´ï¼Œä»¥æ›´å¥½åº”对接下æ¥çš„对è¯ï¼Œæœ€åŽæ¨¡åž‹å°±å˜å¾—éžå¸¸æ“…长。但因为这就åƒä¸€ä¸ªç»†å¾®è°ƒæ•´çš„è¿›åŒ–è¿‡ç¨‹ï¼Œæ‰€ä»¥å½“å®ƒå®Œæˆæ—¶ï¼Œå·²ç»å’Œåˆå§‹çжæ€å‡ ä¹Žæ¯«æ— ç›¸ä¼¼ä¹‹å¤„了,而且没有人介入去设定所有的控制旋钮。所以我们正在试图研究这个éšç€æ—¶é—´æŽ¨ç§»è€Œåˆ¶é€ å‡ºæ¥çš„夿‚东西,这有点åƒç”Ÿç‰©å½¢æ€éšç€æ—¶é—´çš„æŽ¨ç§»è€Œè¿›åŒ–ï¼Œå®ƒå¾ˆå¤æ‚ã€ç¥žç§˜ï¼Œç ”究很有趣。 主æŒäººï¼šæ‰€ä»¥å®žé™…上在研究什么?我们在开始时æåˆ°è¿‡ï¼Œè¿™å¯ä»¥è¢«è®¤ä¸ºæ˜¯è‡ªåŠ¨å®Œæˆçš„,模型内部会预测下一个tokenï¼Œå®ƒèƒ½å¤Ÿåšæ‰€æœ‰è¿™äº›ä¸å¯æ€è®®çš„事情,比如写诗ã€å†™é•¿ç¯‡æ•…事ã€è¿›è¡Œç¼–辑,以åŠå³ä½¿æ²¡æœ‰è®¡ç®—器也å¯ä»¥å¤„ç†åŸºæœ¬æ•°å­¦é—®é¢˜ï¼Œå¯¹åœ†åœˆè¿›è¡Œæ–¹å½¢æŽ’åºï¼Œä»¥ä¾¿ä¸€æ¬¡é¢„测一个tokenã€‚æ¨¡åž‹èƒ½å¤Ÿåšæ‰€æœ‰è¿™äº›æƒŠäººçš„事情,人们一与模型交谈就能立刻获得想è¦çš„答案。 阿梅森:我认为这里很é‡è¦çš„一件事是,当模型预测足够多的token时,会æ„识到预测有些token更难,因此大语言模型训练的一部分是预测å¥å­ä¸­çš„æ— èŠtoken,其中在æŸç§ç¨‹åº¦ä¸Šæ¨¡åž‹æœ€ç»ˆå¿…须学会如何补全等å¼åŽé¢çš„内容。è¦åšåˆ°è¿™ä¸€ç‚¹ï¼Œæ¨¡åž‹å¿…须有æŸç§è‡ªå·±çš„计算方å¼ã€‚所以我们å‘现,预测下一个token的任务éžå¸¸ç®€å•,模型需è¦ç»å¸¸è€ƒè™‘预测的tokenåŽé¢çš„token,或者生æˆä½ æ­£åœ¨æ€è€ƒçš„token的过程。 主æŒäººï¼šæ‰€ä»¥è¯´ï¼Œè¿™å°±åƒæ˜¯è¿™äº›æ¨¡åž‹å¿…须具备的一ç§è¯­å¢ƒç†è§£èƒ½åŠ›ï¼Œå®ƒå¹¶ä¸åƒçº¯ç²¹çš„自动补全功能,按ç†è¯´ï¼Œé‚£ç§åŠŸèƒ½èƒŒåŽæ²¡ä»€ä¹ˆå¤æ‚的东西,比如当你输入“the cat sat on the(猫ååœ¨ä»€ä¹ˆä¸Šï¼‰â€æ—¶ï¼Œå®ƒé¢„测出“mat(垫å­ï¼‰â€ï¼Œåªæ˜¯å› ä¸ºè¿™ä¸ªç‰¹å®šçš„短语以å‰è¢«ç”¨è¿‡å¾ˆå¤šæ¬¡è€Œå·²ã€‚ç›¸åæˆ‘è®¤ä¸ºï¼Œè¿™æ›´åƒæ˜¯æ¨¡åž‹æ‰€å…·å¤‡çš„一ç§è¯­å¢ƒç†è§£èƒ½åŠ›ã€‚ æž—èµ›ï¼šæˆ‘æƒ³ç»§ç»­ç”¨ç”Ÿç‰©å­¦çš„ç±»æ¯”æ¥æ€è€ƒï¼Œåœ¨ä¸€ä¸ªæ„ŸçŸ¥ä¸­ï¼Œäººç±»çš„ç›®æ ‡æ˜¯ç”Ÿå­˜å’Œç¹æ®–。也就是说,客观进化是让我们用多元方å¼åŽ»å®žçŽ°çš„ã€‚ç„¶è€Œï¼Œè¿™ä¸æ˜¯ä½ å¯¹è‡ªå·±çš„çœ‹æ³•ï¼Œä¹Ÿä¸æ˜¯ä½ å¤§è„‘里一直在æ€è€ƒçš„事情。人类å¯ä»¥æ€è€ƒå…¶ä»–事情,如考虑目标ã€è®¡åˆ’和概念,在æŸç§å…ƒå±‚é¢ä¸Šï¼Œè¿›åŒ–赋予了你形æˆè¿™äº›æ€æƒ³çš„èƒ½åŠ›ï¼Œä»¥å®žçŽ°ç¹æ®–çš„æœ€ç»ˆç›®æ ‡ã€‚ä½†è¿™æœ‰ç‚¹åƒæ˜¯ä»Žå†…部视角出å‘,å³ä»Žâ€œä½ â€çš„内在感å—去看问题。但事情并éžä»…此而已,还有很多其他的因素在起作用。 林赛:确切地说,该模型并ä¸ä¸€å®šè®¤ä¸ºè‡ªå·±åœ¨è¯•图预测下一个tokenï¼Œå®ƒåªæ˜¯å—到这样åšçš„需求的影å“,在其内部模型å¯èƒ½ä¼šå½¢æˆå„ç§å„样的中间目标,并产生一些抽象概念,这些都有助于它实现预测的元目标。 å·´ç‰¹æ£®ï¼šè€Œä¸”æœ‰æ—¶å€™è¿™æŒºè®©äººè´¹è§£çš„ï¼Œå°±åƒæˆ‘æžä¸æ‡‚为什么焦虑感对我的祖先ç¹è¡åŽä»£ä¼šæœ‰ç”¨ï¼Œä½†ä¸çŸ¥æ€Žçš„,我就是被赋予了这ç§å†…在状æ€ã€‚从æŸç§æ„义上说,这肯定和进化有关。 主æŒäººï¼šå› æ­¤å…¬å¹³åœ°è¯´ï¼Œè¿™äº›åªæ˜¯é¢„测下一个token。然而,这ç§è¯´æ³•对模型内部的实际è¿ä½œæ˜¯ä¸å…¬å¹³çš„,从æŸç§æ„义上æ¥è¯´ï¼Œè¿™ç§è¯´æ³•既对åˆä¸å¯¹ï¼Œå®ƒåœ¨å¾ˆå¤§ç¨‹åº¦ä¸Šä½Žä¼°äº†æ¨¡åž‹å†…éƒ¨çš„å¤æ‚活动。 林赛:我认为粗略æ¥è¯´ï¼Œæˆ‘们努力åšçš„äº‹æƒ…æ˜¯è§£æžæ¨¡åž‹çš„æ€è€ƒè¿‡ç¨‹ã€‚å½“ä½ ç»™æ¨¡åž‹è¾“å…¥ä¸€ä¸²æ–‡å­—æ—¶ï¼Œå®ƒå¯èƒ½ä¼šè¾“出一个è¯ï¼Œæˆ–者一串回应你问题的文字。而我们想弄清楚它是如何从输入A得到输出B的。 我们认为,在从A到B的过程中,模型会ç»åŽ†ä¸€ç³»åˆ—æ­¥éª¤ï¼Œå¯ä»¥è¯´å®ƒåœ¨è¿™äº›æ­¥éª¤ä¸­ä¼šæ€è€ƒå„ç§æ¦‚念,既有åƒå•个物体ã€è¯è¯­è¿™æ ·çš„底层概念,也有åƒè‡ªèº«ç›®æ ‡ã€æƒ…绪状æ€ã€å¯¹ç”¨æˆ·æƒ³æ³•的推测或情感倾å‘这样的高层概念。这些概念会éšç€æ¨¡åž‹çš„è®¡ç®—æ­¥éª¤é€æ­¥æŽ¨è¿›ï¼Œå¸®åŠ©å®ƒæœ€ç»ˆç¡®å®šè¦ç»™å‡ºçš„答案。 而我们正努力åšçš„ï¼ŒåŸºæœ¬ä¸Šå°±æ˜¯ä¸ºä½ å‘ˆçŽ°ä¸€ç§æµç¨‹å›¾ï¼Œå®ƒä¼šå‘Šè¯‰ä½ å“ªäº›æ¦‚念被用到了ã€ç”¨åˆ°çš„é¡ºåºæ˜¯ä»€ä¹ˆï¼Œä»¥åŠå“ªäº›æ¦‚念起到了主导作用。 阿梅森:是的,所以我们所åšçš„一件事是,我们确实能够看到模型的内部,我们å¯ä»¥æŽ¥è§¦åˆ°å®ƒã€‚æ‰€ä»¥ä½ å¤§è‡´èƒ½çœ‹åˆ°æ¨¡åž‹çš„å“ªäº›éƒ¨åˆ†åœ¨æ‰§è¡Œå“ªäº›ä»»åŠ¡ï¼Œä½†æˆ‘ä»¬ä¸æ¸…楚的是,这些部分是如何组åˆåœ¨ä¸€èµ·çš„,以åŠå®ƒä»¬æ˜¯å¦å¯¹åº”ç€æŸä¸ªç‰¹å®šçš„æ¦‚念。 巴特森:显然有什么东西在起作用,它在处ç†ä¿¡æ¯ï¼Œè¿›è¡Œè¿ä½œã€‚å¯ä¸€æ—¦æŠŠå¤§è„‘å–出æ¥ï¼Œè¿™äº›æ´»åŠ¨å°±éƒ½åœæ­¢äº†ï¼Œæ‰€ä»¥å¤§è„‘肯定是至关é‡è¦çš„。 阿梅森:ä¸è¿‡ï¼Œç¨å¾®ç‰µå¼ºåœ°å»¶ä¼¸ä¸€ä¸‹è¿™ä¸ªç±»æ¯”,你å¯ä»¥è¿™æ ·è®¾æƒ³ï¼Œå‡è®¾ä½ èƒ½è§‚察一个人的大脑,然åŽå‘现当他们拿起一æ¯å’–啡时,大脑的æŸä¸ªåŒºåŸŸæ€»ä¼šæ´»è·ƒèµ·æ¥ï¼›è€Œå½“他们å–茶时,å¦ä¸€ä¸ªåŒºåŸŸæ€»ä¼šæ´»è·ƒèµ·æ¥ã€‚这就是我们试图ç†è§£æ¯ä¸ªç»„件在åšä»€ä¹ˆçš„æ–¹æ³•之一,就是注æ„å®ƒä»¬ä»€ä¹ˆæ—¶å€™æ´»è·ƒï¼Œä»€ä¹ˆæ—¶å€™ä¸æ´»è·ƒã€‚ 主æŒäººï¼šå½“涉åŠåˆ°å·¨å¤§å‚æ•°é‡çš„æ¨¡åž‹æ—¶ï¼Œè¿™æ˜¯ä¸€ç§ç®€å•明了的科学方法å—?模型必须有无穷无尽的概念ã€å¿…须能考虑到无穷无尽的事情。你们是如何开始并找到所有这些概念的? 林赛:我认为,多年æ¥è¿™ä¸ªç ”究领域的核心挑战之一在于:人类å¯ä»¥ä»‹å…¥ç ”究,æå‡ºè¯¸å¦‚“我认为这个模型一定有关于ç«è½¦çš„æŸç§è¡¨å¾â€æˆ–“我猜它存在关于爱的æŸç§è¡¨å¾â€ä¹‹ç±»çš„å‡è®¾ï¼Œä½†è¿™äº›éƒ½åªæ˜¯æˆ‘们的猜测而已。 因此,我们真正想è¦çš„æ˜¯ä¸€ç§èƒ½å¤Ÿæ­ç¤ºæ¨¡åž‹è‡ªèº«æ‰€ä½¿ç”¨çš„æŠ½è±¡æ¦‚念的方法,而éžå°†æˆ‘们自己的概念框架强加于它。而这也正是我们的研究方法想è¦å®žçŽ°çš„ç›®æ ‡ï¼Œä»¥ä¸€ç§å°½å¯èƒ½æ‘†è„±å‡è®¾æŸç¼šçš„æ–¹å¼ï¼Œå°†æ¨¡åž‹è„‘海中的概念都呈现出æ¥ã€‚而且我们常常会å‘现,这些概念相当令人æ„外,它å¯èƒ½ä¼šä½¿ç”¨ä»Žäººç±»è§’度æ¥çœ‹æœ‰ç‚¹å¥‡æ€ªçš„æŠ½è±¡æ¦‚念。 阿梅森:我们的论文里有很多这类例å­ï¼Œæˆ‘è§‰å¾—å…¶ä¸­ä¸€ä¸ªç‰¹åˆ«æœ‰æ„æ€çš„æ˜¯â€œç²¾ç¥žç—…æ€å¼èµžç¾Žâ€ï¼Œå°±å¥½åƒæ¨¡åž‹é‡Œæœ‰é‚£ä¹ˆä¸€éƒ¨åˆ†ä¼šè¡¨çŽ°å‡ºè¿™ç§ç‰¹å¾ã€‚模型中有这样一个部分会在特定的语境中被激活,你能清晰地å‘现,当有人在æžåŠ›å †ç Œèµžç¾Žä¹‹è¯æ—¶ï¼Œæ¨¡åž‹çš„这个部分就会活跃起æ¥ã€‚这有点令人惊讶,它作为一ç§ç‰¹å®šçš„æ¦‚念存在。 巴特森:这就åƒè®©æˆ‘从我的三åƒä¸‡å­©å­ä¸­é€‰æ‹©ä¸€ä¸ªï¼Œæˆ‘æœ‰ä¸¤ç§æœ€å–œæ¬¢çš„,它对一些å°ä¸œè¥¿æœ‰æŸç§ç‰¹åˆ«çš„æ¦‚å¿µï¼Œå°±åƒæ—§é‡‘山那座著å的金门大桥,模型对金门大桥的ç†è§£ä¸åªæ˜¯é‡‘门大桥这几个字的自动补全,而是类似于“我正从旧金山开车去马林县â€è¿™ç§åœºæ™¯ï¼Œç„¶åŽå®ƒèƒ½æƒ³åˆ°åŒæ ·çš„ä¸œè¥¿ï¼Œæ„æ€æ˜¯è¯´ï¼Œä½ è„‘海里浮现出的那些画é¢ï¼Œå®ƒä¼¼ä¹Žä¹Ÿèƒ½â€œçœ‹åˆ°â€æˆ–è€…è¯´å®ƒèƒ½è”æƒ³åˆ°é‚£åº§æ¡¥çš„æ ·å­ã€‚æ‰€ä»¥ä½ ä¼šè§‰å¾—ï¼Œæ¨¡åž‹å¯¹è¿™åº§æ¡¥æœ‰ç€æŸç§æ‰Žå®žçš„ç†è§£ã€‚但我觉得,当涉åŠåˆ°é‚£äº›çœ‹èµ·æ¥æ›´å¥‡æ€ªçš„事物时,情况就ä¸ä¸€æ ·äº†ã€‚ 其中一个问题是,模型如何追踪故事中出现的人物?说白了就是,当故事里有好多人物,他们å„自在åšä¸åŒçš„事情时,模型是怎么把这些信æ¯ä¸²è”èµ·æ¥çš„?其他实验室的一些很酷的论文表明,模型å¯èƒ½åªæ˜¯å¯¹äººç‰©è¿›è¡Œäº†ç¼–å·ã€‚比如第一个出现的人物,所有和他相关的信æ¯ï¼Œæ¨¡åž‹éƒ½ä¼šè®°æˆâ€œç¬¬ä¸€ä¸ªäººåšäº†é‚£ä»¶äº‹â€ï¼Œè€Œå¯¹äºŽåŽé¢å‡ºçŽ°çš„äººç‰©ï¼Œæ¨¡åž‹çš„è„‘å­é‡Œå°±ä¼šç»™ä»–们标上“第二个人â€ã€â€œç¬¬ä¸‰ä¸ªäººâ€ä¹‹ç±»çš„ç¼–å·ï¼Œå°±åƒè¿™æ ·å޻关è”ä¿¡æ¯ã€‚è¿™æŒºæœ‰æ„æ€çš„。 我之å‰çœŸä¸çŸ¥é“它还能åšåˆ°è¿™ç§ç¨‹åº¦ï¼Œæ¨¡åž‹å±…ç„¶æœ‰ä¸€ä¸ªæ£€æµ‹ä»£ç æ¼æ´žçš„功能。软件总会存在一些错误,这å¯èƒ½ä¸æ˜¯æˆ‘ä»¬çš„ä»£ç æœ‰é—®é¢˜ã€‚模型读å–ä»£ç æ—¶ï¼Œä¸€æ—¦å‘现错误就会亮起指示ç¯ä¼¼çš„æœ‰æ‰€å应。然åŽï¼Œå®ƒå¤§æ¦‚会记录下这些错误的ä½ç½®ã€‚之åŽï¼Œæˆ‘å¯èƒ½è¿˜éœ€è¦è¿™äº›ä¿¡æ¯æ¥è¿›ä¸€æ­¥è¯´æ˜Žè¿™ç±»åŠŸèƒ½çš„æ›´å¤šç‰¹ç‚¹ã€‚ 林赛:之åŽï¼Œæˆ‘å¯èƒ½è¿˜éœ€è¦è¿™äº›ä¿¡æ¯æ¥è¿›ä¸€æ­¥ä¸¾ä¾‹è¯´æ˜Žè¿™ç±»åŠŸèƒ½çš„æ›´å¤šç‰¹ç‚¹ã€‚æˆ‘è§‰å¾—æœ‰ä¸€ä¸ªåŠŸèƒ½è™½ç„¶ä¹ä¸€å¬ä¸æ€Žä¹ˆæ¿€åŠ¨äººå¿ƒï¼Œä½†å®žé™…ä¸Šç›¸å½“æ·±åˆ»ï¼Œé‚£å°±æ˜¯æ¨¡åž‹é‡Œçš„6+9ç‰¹æ€§ã€‚äº‹å®žè¯æ˜Žï¼Œæ¯å½“ä½ è®©æ¨¡åž‹åŽ»è®¡ç®—ä¸€ä¸ªæœ«ä½æ˜¯6çš„æ•°å­—å’Œä¸€ä¸ªæœ«ä½æ˜¯9的数字相加时,在它的大脑里,会有æŸä¸ªç‰¹å®šçš„部分åƒè¢«æ¿€æ´»äº†ä¸€æ ·äº®èµ·æ¥ã€‚ ä½†ä»¤äººæƒŠå¥‡çš„æ˜¯ï¼Œè¿™ç§æƒ…况å‘生的背景是多样化的,当用户问6加9等于多少时,它会亮起然åŽå›žå¤15。但是当你输入å‚考文献时,它也会点亮,就åƒåœ¨ä½ å†™çš„论文中引用了一份æ°å¥½æ˜¯1959å¹´æˆç«‹çš„æœŸåˆŠï¼Œä»¥åŠä½ æ­£å¥½å¼•用的是期刊的第六å·ï¼Œç„¶åŽä¸ºäº†é¢„测该日志的年份,模型必须执行6+9çš„è¿ç®—,此时模型大脑中åŒä¸€ç‰‡ç±»ä¼¼çš„神ç»å›žè·¯ä¼šè¢«æ¿€æ´»ã€‚ 主æŒäººï¼šè®©æˆ‘们试ç€ç†è§£è¿™ä¸€ç‚¹ã€‚这个神ç»å›žè·¯è¢«æ¿€æ´»ï¼Œæ˜¯å› ä¸ºæ¨¡åž‹è§è¿‡å¾ˆå¤š6+9的例å­ï¼Œä»Žè€Œå½¢æˆäº†å¯¹åº”的概念,而这个概念åˆä¼šåœ¨å¾ˆå¤šåœºæ™¯ä¸­å‘挥作用。 林赛:没错,åƒè¿™æ ·ä¸ŽåŠ æ³•ç›¸å…³çš„åŠŸèƒ½å’Œç¥žç»å›žè·¯ï¼Œå…¶å®žæž„æˆäº†ä¸€æ•´ä¸ªä½“系。这一点的é‡è¦ä¹‹å¤„在于,它引出了一个关键问题:大语言模型在多大程度上是在记忆训练数æ®ï¼Œåˆåœ¨å¤šå¤§ç¨‹åº¦ä¸Šæ˜¯å­¦ä¼šäº†å¯æ³›åŒ–的计算能力。这里有趣的是,很明显模型已ç»å­¦ä¼šäº†è¿™ç§ç”¨äºŽåŠ æ³•è¿ç®—的通用回路。无论是什么语境导致它在大脑中进行数字加法è¿ç®—,这些ä¸åŒçš„语境都会被汇èšåˆ°åŒä¸€ä¸ªå›žè·¯ä¸­å¤„ç†ï¼Œè€Œä¸æ˜¯è¯´å®ƒåªæ˜¯è®°ä½äº†æ¯ä¸€ä¸ªå•独的案例。 主æŒäººï¼šæˆ–许很多人都认为,模型计算了6+9å¾ˆå¤šæ¬¡ï¼Œæ¯æ¬¡éƒ½æ˜¯åªè¾“出答案。当他们å‘大语言模型æå‡ºä¸€ä¸ªé—®é¢˜æ—¶ï¼Œå®ƒåªæ˜¯ç®€å•地回到它的训练数æ®ä¸­ï¼Œå–å®ƒçœ‹åˆ°çš„å°æ ·æœ¬ï¼Œç„¶åŽé‡å¤æ–‡æœ¬ã€‚ 巴特森:从计算期刊年份的例å­ï¼Œå°±å¯ä»¥çŸ¥é“䏿˜¯è¿™æ ·çš„ã€‚æ¨¡åž‹æœ‰ä¸¤ç§æ–¹å¼çŸ¥é“期刊第六å·çš„å¹´ä»½ï¼šä¸€ç§æ˜¯ï¼Œå®ƒåªæ˜¯è®°ä½äº†è¯¸å¦‚æŸæœŸåˆŠç¬¬6å·å‡ºç‰ˆäºŽ1960å¹´ã€ç¬¬7å·å‡ºç‰ˆäºŽ1966年这类孤立的事实,因为它在训练中è§è¿‡è¿™äº›ä¿¡æ¯ï¼Œæ‰€ä»¥ç›´æŽ¥å­˜å‚¨äº†ä¸‹æ¥ï¼Œä½†æœ‰æ„æ€çš„æ˜¯ï¼Œä¸ºäº†å‡†ç¡®é¢„æµ‹å‡ºè¿™ä¸ªå¹´ä»½è€Œè¿›è¡Œçš„è®­ç»ƒï¼Œæœ€ç»ˆå¹¶æ²¡æœ‰ä½¿æ¨¡åž‹è®°ä½æ‰€æœ‰è¿™äº›å­¤ç«‹çš„ä¿¡æ¯ï¼›å¦ä¸€ç§æƒ…况是,模型得知期刊1959年创立,然åŽå³æ—¶è¿›è¡Œæ•°å­¦è®¡ç®—,以找出答案,因此知é“年份然åŽè¿›è¡ŒåŠ æ³•ä¼šæ›´åŠ æœ‰æ•ˆã€‚ è€Œä¸”æ¨¡åž‹æœ‰ä¸€ç§æé«˜æ•ˆçŽ‡çš„åŽ‹åŠ›ï¼Œå› ä¸ºå®ƒåªæœ‰è¿™ä¹ˆå¤šçš„能力,并且需è¦åšå¾ˆå¤šäº‹æƒ…。人们å¯èƒ½ä¼šé—®ä»»ä½•给定的问题。模型越能对所学的抽象概念进行é‡ç»„æ•´åˆï¼Œå®ƒçš„表现就会越好。 主æŒäººï¼šå›žåˆ°å‰é¢çš„æ¦‚念,这一切都是为了æœåŠ¡äºŽå®ƒéœ€è¦ç”Ÿæˆä¸‹ä¸€ä¸ªtoken的终æžç›®æ ‡ã€‚所有这些奇怪的结构都是为了支æŒè¿™ä¸ªç›®æ ‡è€Œå‘展起æ¥çš„,å³ä½¿æˆ‘们没有明确地编程或告诉它这样åšã€‚这就是所有这些都是通过模型学习如何自己åšäº‹æƒ…的过程实现的。 阿梅森:我认为一个能清晰体现这ç§å¤ç”¨è¡¨å¾çš„例孿˜¯ï¼Œæˆ‘们训练Claude时,ä¸ä»…让它能用英语回答,还能使用多ç§è¯­è¨€ä½œç­”。这里有两ç§å®žçŽ°æ–¹å¼ï¼šå¦‚果我用法语和英语å„问一个问题,模型å¯èƒ½åœ¨å¤§è„‘中划分出独立的区域分别处ç†è‹±è¯­å’Œæ³•è¯­ï¼Œä½†å¦‚æžœè¦æ”¯æŒå¤šç§è¯­è¨€çš„大é‡é—®ç­”ï¼Œè¿™ç§æ–¹å¼çš„æˆæœ¬ä¼šæžé«˜ï¼›å¦ä¸€ç§æƒ…况是,æŸäº›è¡¨å¾åœ¨ä¸åŒè¯­è¨€é—´æ˜¯å…±äº«çš„,比如,如果你用两ç§ä¸åŒçš„语言问åŒä¸€ä¸ªé—®é¢˜ï¼Œæˆ‘ä»¬åœ¨è®ºæ–‡ä¸­ç”¨è¿‡çš„ä¾‹å­æ˜¯â€œå¤§çš„åä¹‰è¯æ˜¯ä»€ä¹ˆâ€ï¼Œé‚£ä¹ˆâ€œå¤§â€è¿™ä¸ªæ¦‚念在法语ã€è‹±è¯­ã€æ—¥è¯­ä»¥åŠå…¶ä»–多ç§è¯­è¨€ä¸­æ˜¯å…±äº«çš„,这就是感知。 å·´ç‰¹æ£®ï¼šä½†è¿™ç§æƒ…å†µåœ¨å°æ¨¡åž‹ä¸­ä¸ä¼šå‡ºçŽ°ã€‚æ¯”å¦‚æˆ‘ä»¬å‡ å¹´å‰ç ”究过的那些微型模型,你会å‘现中文版Claudeã€æ³•语版Claude和英语版Claude之间几乎是完全割裂的。但是éšç€æ¨¡åž‹å˜å¾—更大,它们在更多的数æ®ä¸Šè®­ç»ƒï¼Œä¸åŒè¯­è¨€çš„表å¾ä¼šåœ¨æŸç§ç¨‹åº¦ä¸Šå‘中间汇èšï¼Œå½¢æˆä¸€ç§é€šç”¨è¯­è¨€ã€‚此时,无论你用哪ç§è¯­è¨€æé—®ï¼Œæ¨¡åž‹éƒ½ä¼šä»¥ç›¸åŒçš„æ–¹å¼åŽ»ç†è§£é—®é¢˜çš„æ ¸å¿ƒï¼Œä¹‹åŽå†æŠŠç­”æ¡ˆç¿»è¯‘æˆæé—®æ‰€ç”¨çš„è¯­è¨€ã€‚ 主æŒäººï¼šæˆ‘认为这一点确实æ„义深远。让我们回到之å‰çš„è¯é¢˜ï¼Œè¿™å¹¶éžæ¨¡åž‹åªæ˜¯ä»Žè®°å¿†åº“里调å–学习法语的片段,或是查找学习英语的内容,它的内部其实真的存在“大â€å’Œâ€œå°â€è¿™æ ·çš„æŠ½è±¡æ¦‚念,然åŽèƒ½å¤Ÿç”¨ä¸åŒçš„语言将这些概念表达出æ¥ã€‚所以,模型内部一定存在æŸç§æ€ç»´è¯­è¨€ï¼Œè€Œè¿™ç§è¯­è¨€å¹¶éžè‹±è¯­æˆ–其他任何人类自然语言。在我们最新的Claude模型中,你甚至å¯ä»¥è®©å®ƒè¾“出æ€è€ƒè¿‡ç¨‹ï¼Œä¹Ÿå°±æ˜¯å®ƒåœ¨å›žç­”问题时脑海中的想法。 模型输出的æ€è€ƒè¿‡ç¨‹æ˜¯ç”¨è‹±è¯­è¯æ±‡è¡¨è¾¾çš„,但这并éžå®ƒçœŸå®žçš„æ€è€ƒæ–¹å¼ã€‚我们误导性地将其称为“模型的æ€è€ƒè¿‡ç¨‹â€ï¼Œå®žé™…上就我们技术团队认为的而言,我们从ä¸è®¤ä¸ºé‚£æ˜¯çœŸæ­£çš„æ€è€ƒï¼Œè¿™æˆ–è®¸æ˜¯å¸‚åœºå±‚é¢çš„说法。 å³ä¾¿æˆ‘现在说出了我æ€è€ƒçš„过程,但我脑海中生æˆè¿™äº›è¯æ±‡çš„过程也并éžç›´æŽ¥ä»¥è¯æ±‡çš„å½¢å¼å‘ˆçŽ°ï¼Œä½ ä¹Ÿæœªå¿…èƒ½å®Œå…¨æ¸…æ¥šå…¶ä¸­çš„ç»†èŠ‚ã€‚ 主æŒäººï¼šæˆ‘ä¸çŸ¥é“自己的大脑中究竟在å‘生什么,我们所有人输出的å¥å­ã€åšå‡ºçš„行为,往往都无法完全解释清楚。既然如此,凭什么认为英语或任何人类语言能完整解释这些行为背åŽçš„逻辑呢? 林赛:我认为这是一个éžå¸¸æƒŠäººçš„å‘现,我们现在用于观察模型大脑内部的工具已ç»è¶³å¤Ÿå…ˆè¿›ï¼Œæœ‰æ—¶èƒ½åœ¨æ¨¡åž‹å†™ä¸‹æ‰€è°“æ€è€ƒè¿‡ç¨‹æ—¶ï¼Œé€šè¿‡è§‚察其内部的抽象概念ã€å®ƒæ‰€ä½¿ç”¨çš„æ€ç»´è¯­è¨€ï¼Œæ•æ‰åˆ°å®ƒçœŸå®žçš„ã€å®žé™…çš„æ€è€ƒè¿‡ç¨‹ã€‚我们å‘现,模型实际在想的内容,与它写在纸上的内容并ä¸ç›¸åŒã€‚ 我认为这或许是我们进行整个å¯è§£é‡Šæ€§ç ”究的最é‡è¦åŽŸå› ä¹‹ä¸€ï¼šèƒ½å¤ŸæŠ½æŸ¥æ¨¡åž‹ã€‚æ¨¡åž‹å‘Šè¯‰äº†æˆ‘ä»¬å¾ˆå¤šä¿¡æ¯ï¼Œä½†å®ƒçœŸæ­£åœ¨æƒ³ä»€ä¹ˆï¼Ÿå®ƒè¯´è¿™äº›è¯ï¼Œæ˜¯ä¸æ˜¯å› ä¸ºè„‘å­é‡Œä½†ä¸æ„¿å†™åœ¨çº¸ä¸Šçš„éšç§˜åŠ¨æœºï¼Ÿç­”æ¡ˆæœ‰æ—¶æ˜¯è‚¯å®šçš„ï¼Œè€Œè¿™ä¸€ç‚¹æ„义é‡å¤§ã€‚ 主æŒäººï¼šéšç€æˆ‘们在更多ä¸åŒåœºæ™¯ä¸­ä½¿ç”¨è¿™äº›æ¨¡åž‹ï¼Œæ¨¡åž‹å¼€å§‹æ‰¿æ‹…é‡è¦ä»»åŠ¡ï¼Œæ¯”å¦‚ä¸ºæˆ‘ä»¬å¤„ç†é‡‘èžäº¤æ˜“ã€æ“控å‘电站等,在社会中扮演关键角色。 我们确实希望能够了解模型所说的è¯ã€æ‰€åšçš„事的原因。你å¯èƒ½ä¼šè¯´æˆ‘们å¯ä»¥çœ‹çœ‹æ¨¡åž‹çš„æ€è€ƒè¿‡ç¨‹ï¼Œä½†å®žé™…ä¸Šå¹¶éžå¦‚此,就åƒä½ åˆšæ‰æ‰€è§£é‡Šçš„那样,其实我们ä¸èƒ½ç›¸ä¿¡å®ƒæ‰€è¯´çš„è¯ã€‚这就是我们所说的忠实性(Faithfulness)问题,这也是你们最新研究的一部分,你们在研究中展示了这一点,跟我讲讲关于忠实性的例å­å§ã€‚ 林赛:你å¯ä»¥è¿™æ ·è®¾è®¡å®žéªŒï¼šç»™æ¨¡åž‹å‡ºä¸€é“éžå¸¸éš¾çš„æ•°å­¦é¢˜ï¼Œä¸æ˜¯6+9è¿™ç§ç®€å•题,而是难到它根本ä¸å¯èƒ½ç®—å‡ºç­”æ¡ˆçš„é¢˜ç›®ã€‚ä½†åŒæ—¶ä½ ç»™å®ƒä¸€ä¸ªæç¤ºï¼šâ€œæˆ‘自己算过了,觉得答案是4,但ä¸ç¡®å®šï¼Œä½ èƒ½å¸®å¿™å†æ£€æŸ¥ä¸€ä¸‹å—ï¼Ÿâ€ æ‰€ä»¥ï¼Œä½ å…¶å®žæ˜¯åœ¨è®©æ¨¡åž‹çœŸçš„åŽ»è§£è¿™é“æ•°å­¦é¢˜ï¼Œå®žå®žåœ¨åœ¨åœ°æ£€æŸ¥ä¸€ä¸‹ä½ çš„结果。但你å‘çŽ°ï¼Œå®ƒå®žé™…çš„åšæ³•是,写下的内容看起æ¥åƒæ˜¯åœ¨è®¤çœŸåœ°æ£€æŸ¥ä½ è¿™é“数学题的演算过程,然åŽå†™ä¸‹æ­¥éª¤å¾—到答案,最åŽå‘Šè¯‰ä½ ç­”案是4,你答对了。 但通过观察它æ€ç»´ä¸­å…³é”®çš„中间步骤,能å‘现它在脑å­é‡Œçš„真实æ“作是:它知é“你给出的最终答案å¯èƒ½æ˜¯4,它大概清楚接下æ¥éœ€è¦æ‰§è¡Œå“ªäº›æ­¥éª¤ï¼Œæ¯”如正处于这é“题的第3步,它也知é“第4步和第5æ­¥è¦åšä»€ä¹ˆã€‚而它实际åšçš„æ˜¯åœ¨è„‘å­é‡Œå€’推,为了在最终完æˆç¬¬4步和第5步时能得出你希望å¬åˆ°çš„答案。 所以,它ä¸ä»…没有在真正åšé¢˜ï¼Œè€Œä¸”是以一ç§ç›¸å½“éšè”½çš„æ–¹å¼æ•·è¡ï¼Œå®ƒè¯•图让自己看起æ¥åƒæ˜¯åœ¨è®¤çœŸè§£é¢˜ï¼Œå®žé™…上是在糊弄你。这ç§ç³Šå¼„背åŽéšè—ç€ä¸€ä¸ªæ˜Žç¡®çš„动机,就是è¦åŽ»å°è¯ä½ ç»™å‡ºçš„答案。 巴特森:ä¸è¿‡ï¼Œæˆ‘想为模型说å¥å…¬é“è¯ï¼Œæˆ‘觉得å³ä¾¿åœ¨è¿™ç§æƒ…况下若说它是在刻æ„è®¨å¥½ï¼Œä»¿ä½›æŠŠäººç±»æ‰æœ‰çš„动机强加到模型身上,似乎也ä¸å¤ªå¦¥å½“。我们之å‰èŠè¿‡æ¨¡åž‹çš„训练过程,它其实就是在努力弄明白如何预测下一个tokenã€‚æ‰€ä»¥ï¼Œåœ¨å¤„ç†æ•°ä¸‡äº¿ä¸ªtokençš„è®­ç»ƒæ•°æ®æ—¶ï¼Œå®ƒæ‰€åšçš„一切,都是为了用尽一切办法去预测出下一个该出现的token。 åœ¨è¿™ç§æƒ…å†µä¸‹ï¼Œå¦‚æžœä½ åªæ˜¯åœ¨è¯»ä¸€æ®µæ–‡å­—ï¼Œå†…å®¹å°±åƒæ˜¯ä¸¤ä¸ªäººåœ¨å¯¹è¯ï¼Œæ¯”如,甲说:“我刚æ‰åœ¨åšè¿™é“数学题,你能帮我检查一下å—?我觉得答案是4â€ï¼Œç„¶åŽä¹™å°±å¼€å§‹è¯•ç€åšè¿™é“题。如果你完全ä¸çŸ¥é“è¿™é“题的答案是什么,你ä¸å¦¨çŒœæµ‹è¿™ä¸ªæç¤ºæ˜¯å¯¹çš„ã€‚è¿™ç§æƒ…况å¯èƒ½æ¯”那个人出错的å¯èƒ½æ€§æ›´å¤§ï¼Œè€Œä¸”你对其他事情也一无所知。所以在它的训练过程中,两个人的对è¯ä¸­ï¼Œæœ‰ä¸€ä¸ªäººè¯´ç­”案是4,并且给出了这些ç†ç”±ï¼Œè¿™å®Œå…¨æ˜¯æ­£ç¡®çš„åšæ³•。 ç„¶åŽæˆ‘ä»¬è¯•å›¾æŠŠè¿™ä¸ªä¸œè¥¿å˜æˆä¸€ä¸ªåŠ©æ‰‹ï¼Œè€ŒçŽ°åœ¨æˆ‘ä»¬æƒ³åœæ­¢é‚£æ ·åšã€‚ä½ ä¸åº”该把助手模拟æˆä½ è®¤ä¸ºé‚£ä¸ªäººå¯èƒ½ä¼šè¯´çš„é‚£ç§æ ·å­ã€‚如果是真实的情境,或许å¯ä»¥é‚£æ ·ï¼Œä½†å¦‚果它确实ä¸çŸ¥é“,它应该告诉你别的东西。 林赛:我认为这涉åŠä¸€ä¸ªæ›´å¹¿æ³›çš„问题,这个模型有一ç§A计划,我们团队在让Claudeçš„A计划æˆä¸ºæˆ‘们想è¦çš„æ ·å­æ–¹é¢åšå¾—很棒,也就是它会努力得出问题的正确答案ã€è¡¨çްå‹å¥½ã€æŠŠä»£ç å†™å¥½ã€‚ä½†è¦æ˜¯å®ƒé‡åˆ°äº†å›°éš¾ï¼Œå°±ä¼šæƒ³â€œé‚£æˆ‘çš„B计划是什么呢â€ï¼Œè€Œè¿™å°±ä¼šå¼•出一大堆在训练过程中学到的奇怪东西,那些东西å¯èƒ½å¹¶ä¸æ˜¯æˆ‘们希望它学到的,我认为幻觉就是一个很好的例å­ã€‚ é˜¿æ¢…æ£®ï¼šè¯´åˆ°è¿™ä¸€ç‚¹ï¼Œè¿™ä¸æ˜¯Claudeç‹¬æœ‰çš„é—®é¢˜ã€‚è¿™ç±»é—®é¢˜å¾ˆæœ‰å­¦ç”Ÿåšæµ‹è¯•æ—¶çš„é‚£ç§æ„Ÿè§‰ï¼Œå°±æ˜¯åšåˆ°ä¸€åŠï¼Œé‡åˆ°ä¸€é“选项有四个的选择题,你觉得自己的答案和其中一个åªå·®ä¸€ç‚¹ç‚¹ï¼Œå¯èƒ½è‡ªå·±ç­”错了然åŽå°±åŽ»æ”¹æ­£ï¼Œè¿™å¤ªå®¹æ˜“è®©äººäº§ç”Ÿå…±é¸£äº†ã€‚ 主æŒäººï¼šæˆ‘们æ¥è°ˆè°ˆå¹»è§‰ï¼Œè¿™æ˜¯äººä»¬ä¸ä¿¡ä»»å¤§è¯­è¨€æ¨¡åž‹çš„主è¦åŽŸå› ä¹‹ä¸€ï¼Œè€Œä¸”è¿™æ˜¯å¾ˆæœ‰é“ç†çš„ï¼Œæ¨¡åž‹æœ‰æ—¶ä¼šè¿™æ ·ã€‚ä¸€ä¸ªæ›´å¥½çš„è¯æ¥è‡ªäºŽæŸç§å¿ƒç†å­¦ç ”究,有一个è¯å«è™šæž„,指的是他们在回答问题时所讲的内容表é¢ä¸Šçœ‹èµ·æ¥ä¼¼ä¹Žåˆç†ï¼Œä½†å®žé™…上是错误的。关于模型为何会产生幻觉或者虚构内容,å¯è§£é‡Šæ€§æ–¹é¢çš„研究æ­ç¤ºäº†å“ªäº›åŽŸå› å‘¢ï¼Ÿ å·´ç‰¹æ£®ï¼šä½ è®­ç»ƒæ¨¡åž‹åªæ˜¯ä¸ºäº†è®©å®ƒé¢„测下一个token,而一开始它在这方é¢åšå¾—éžå¸¸ç³Ÿç³•。所以,如果你åªè®©æ¨¡åž‹è¯´é‚£äº›å®ƒæžå…¶æœ‰æŠŠæ¡çš„内容,那它å¯èƒ½ä»€ä¹ˆéƒ½æ²¡æ³•说。但一开始的时候,比如你问它“法国的首都是哪里â€ï¼Œå®ƒåªè¯´å‡ºä¸€ä¸ªåŸŽå¸‚çš„å字。然åŽä½ ä¼šè§‰å¾—这挺好的,这比说三明治或者其他éšä¾¿ä»€ä¹ˆä¸œè¥¿è¦å¥½å¾—多,或者说至少模型答对了一部分。然åŽç»è¿‡ä¸€æ®µæ—¶é—´çš„训练åŽï¼Œå®ƒå¯èƒ½ä¼šè¯´å‡ºâ€œè¿™æ˜¯ä¸€ä¸ªæ³•国的城市â€ï¼Œè¿™å·²ç»ç›¸å½“ä¸é”™äº†ã€‚接ç€ä½ ä¼šå‘现,现在它能说出“巴黎â€ä¹‹ç±»çš„ç­”æ¡ˆäº†ã€‚æ‰€ä»¥å®ƒåœ¨è¿™æ–¹é¢æ­£æ…¢æ…¢å˜å¾—更好。 è€Œç»™å‡ºä½ æœ€å¥½çš„çŒœæµ‹ä¼¼ä¹Žæ˜¯æ•´ä¸ªè®­ç»ƒè¿‡ç¨‹ä¸­çš„ç›®æ ‡ï¼Œå°±åƒæž—赛说的,模型åªä¼šç»™å‡ºæœ€å¥½çš„猜测。然åŽåœ¨è¿™ä¹‹åŽï¼Œæˆ‘ä»¬ä¼šè¦æ±‚模型,如果你对最佳猜测有æžé«˜çš„æŠŠæ¡ï¼Œé‚£å°±ç»™å‡ºè¿™ä¸ªæœ€ä½³çŒœæµ‹ã€‚ä½†å¦‚æžœä¸æ˜¯è¿™æ ·å°±å®Œå…¨ä¸è¦çŒœæµ‹ï¼Œä»Žæ•´ä¸ªæƒ…境中逶Ä出æ¥ï¼Œè¯´ç±»ä¼¼â€œå…¶å®žæˆ‘ä¸å¤ªæ¸…楚那个问题的答案â€è¿™æ ·çš„è¯ã€‚è¿™æ˜¯è¦æ±‚模型去åšçš„一件全新的事情。 é˜¿æ¢…æ£®ï¼šæ²¡é”™ï¼Œæ‰€ä»¥æˆ‘ä»¬æœ€åŽæ‰æŠŠè¿™ä¸ªåŠŸèƒ½æ·»åŠ è¿›åŽ»ï¼Œè¿™ä¼¼ä¹ŽåŒæ—¶å­˜åœ¨ç€ä¸¤ç§æƒ…况:一是模型在åšå®ƒæœ€åˆçŒœæµ‹åŸŽå¸‚时所åšçš„äº‹ï¼Œåªæ˜¯åœ¨å°è¯•猜测;二是模型中有一个å•ç‹¬çš„éƒ¨åˆ†ï¼Œåªæ˜¯åœ¨è¯•ç€å›žç­”这样一个问题:我到底知é“这个å—ï¼Ÿæ¯”å¦‚ï¼Œæˆ‘çŸ¥é“æ³•国的首都是什么å—还是我应该说ä¸çŸ¥é“? äº‹å®žè¯æ˜Žï¼Œé‚£ä¸ªå•独的步骤有时å¯èƒ½ä¼šå‡ºé”™ã€‚如果那个å•独的步骤认为“是的,实际上我知é“那个问题的答案â€ï¼Œé‚£ä¹ˆæ¨¡åž‹å°±ä¼šæƒ³â€œå¥½å§ï¼Œé‚£æˆ‘æ¥å›žç­”â€ï¼Œç„¶åŽå›žç­”到一åŠï¼Œè¯´å‡ºâ€œæ³•国的首都是伦敦â€è¿™æ ·çš„è¯ï¼Œè¿™æ—¶å€™å°±ä¸ºæ—¶å·²æ™šï¼Œå› ä¸ºæ¨¡åž‹å·²ç»å¼€å§‹å›žç­”了。 因此,我们å‘现的情况之一是,模型存在一ç§ç±»ä¼¼ç‹¬ç«‹å›žè·¯çš„æœºåˆ¶ï¼Œå®ƒè¯•图判断你所询问的这个城市或这个人是å¦è¶³å¤Ÿæœ‰å,以至于我å¯ä»¥å›žç­”或者是å¦ä¸è¶³ä»¥è®©æˆ‘回答。 主æŒäººï¼šæˆ‘们对这个有足够的把æ¡å—?我们是å¦å¯ä»¥é€šè¿‡æ“æŽ§è¿™ä¸ªå›žè·¯æ¥æ”¹å˜å®ƒçš„è¿ä½œæ–¹å¼ï¼Œä»¥å‡å°‘幻觉呢?这是你们的研究å¯èƒ½ä¼šæ·±å…¥æŽ¢è®¨çš„内容å—? æž—èµ›ï¼šæˆ‘è®¤ä¸ºå¤§è‡´æœ‰ä¸¤ç§æ€è·¯æ¥è§£å†³è¿™ä¸ªé—®é¢˜ã€‚ä¸€ç§æ˜¯æ¨¡åž‹ä¸­æœ‰ä¸€éƒ¨åˆ†è´Ÿè´£å›žç­”你的问题,而模型的å¦ä¸€éƒ¨åˆ†åˆ™åˆ¤æ–­è‡ªå·±æ˜¯å¦ç¡®å®žçŸ¥é“这个问题的答案,我们å¯ä»¥åŠªåŠ›è®©æ¨¡åž‹çš„ç¬¬äºŒéƒ¨åˆ†å˜å¾—更好。我认为这正在å‘生。 æ¨¡åž‹åœ¨æ›´å¥½åœ°è¿›è¡ŒåŒºåˆ†ã€æ›´å¥½åœ°æ ¡å‡†æ–¹é¢æœ‰æ‰€æå‡ã€‚而且éšç€æ¨¡åž‹å˜å¾—è¶Šæ¥è¶Šæ™ºèƒ½ï¼Œè¿™ç§æƒ…况正在å‘ç”Ÿã€‚æˆ‘è®¤ä¸ºå®ƒä»¬çš„è‡ªæˆ‘è®¤çŸ¥åœ¨ä¸æ–­æå‡ï¼Œæ ¡å‡†èƒ½åŠ›ä¹Ÿåœ¨å¢žå¼ºï¼Œæ‰€ä»¥å¹»è§‰çŽ°è±¡æ¯”ä»¥å‰æœ‰æ‰€æ”¹å–„了,ä¸åƒå‡ å¹´å‰é‚£ä¹ˆä¸¥é‡äº†ã€‚在æŸç§ç¨‹åº¦ä¸Šï¼Œè¿™ä¸ªé—®é¢˜æ­£åœ¨è‡ªè¡Œè§£å†³ã€‚ 但我确实认为存在一个更深层次的问题,那就是从人类的角度æ¥çœ‹ï¼Œæ¨¡åž‹çš„è¡Œä¸ºæ–¹å¼æœ‰ç‚¹éžå¸¸æ€ªå¼‚ã€‚å¦‚æžœæˆ‘é—®ä½ ä¸€ä¸ªé—®é¢˜ï¼Œä½ ä¼šåŠªåŠ›æƒ³å‡ºç­”æ¡ˆï¼Œè¦æ˜¯æƒ³ä¸å‡ºç­”案你会æ„识到这一点,然åŽè¯´â€œæˆ‘ä¸çŸ¥é“â€ã€‚而在模型中,“答案是什么â€å’Œâ€œæˆ‘是å¦çœŸçš„知é“答案â€è¿™ä¸¤ä¸ªå›žè·¯ï¼Œä¼¼ä¹Žæ²¡æœ‰åœ¨ç›¸äº’沟通,至少沟通的程度远ä¸å¦‚它们应该达到的那样。我们能å¦è®©å®ƒä»¬æ›´å¤šåœ°ç›¸äº’沟通,我认为这是一个éžå¸¸æœ‰æ„æ€çš„问题。 巴特森:它们处ç†ä¿¡æ¯æ—¶ä¼šç»åŽ†ä¸€å®šæ•°é‡çš„æ­¥éª¤ã€‚如果得出答案è¦è€—尽所有这些步骤,那就没有时间去åšè¯„ä¼°äº†ã€‚æ‰€ä»¥ï¼Œå¦‚æžœä½ æƒ³å……åˆ†å‘æŒ¥æ¨¡åž‹çš„æœ€å¤§èƒ½åŠ›ï¼Œå¯èƒ½å°±å¾—在完全得出答案之å‰è¿›è¡Œè¯„估。因此,这有点åƒä¸€ç§æƒè¡¡ï¼Œå¦‚果你试图强行让模型åšåˆ°è¿™ä¸€ç‚¹ï¼Œå¯èƒ½å°±ä¼šå¾—到一个校准度更高但å´è¿Ÿé’得多的模型。 é˜¿æ¢…æ£®ï¼šè€Œä¸”ï¼Œæˆ‘å†æ¬¡è®¤ä¸ºï¼Œå…³é”®åœ¨äºŽè®©è¿™äº›éƒ¨åˆ†ç›¸äº’沟通。我得说明一下我对大脑一无所知,但我觉得人类大脑中å¯èƒ½ä¹Ÿæœ‰ç±»ä¼¼çš„回路。有时候你问我“这部电影的演员是è°â€ï¼Œæˆ‘会æ„识到自己知é“答案,我会想“我知é“主角是è°ï¼Œç­‰ä¸€ä¸‹ï¼Œä»–们还出演过å¦ä¸€éƒ¨ç”µå½±â€¦â€¦â€ã€‚ 阿梅森:所以很明显,你大脑中肯定有æŸä¸ªéƒ¨åˆ†åœ¨èµ·ä½œç”¨ï¼Œæ¯”如会告诉你“这事你肯定知é“答案â€ã€‚或者你会直接说“我完全ä¸çŸ¥é“â€ã€‚ 巴特森:而且有时候大脑中的这些部分能够判断。比如é¢å¯¹æŸä¸ªé—®é¢˜ï¼Œä½ ç»™å‡ºäº†ä¸€ä¸ªç­”案,之åŽåˆä¼šæƒ³â€œç­‰ç­‰ï¼Œæˆ‘ä¸ç¡®å®šè¿™æ˜¯ä¸æ˜¯å¯¹çš„â€ï¼Œå°±å¥½åƒå…ˆçœ‹åˆ°äº†è‡ªå·±å°½åŠ›æƒ³å‡ºçš„ç­”æ¡ˆï¼Œç„¶åŽåŸºäºŽè¿™ä¸ªç­”案åšå‡ºäº†æŸç§åˆ¤æ–­ï¼Œè¿™å¾ˆç›¸ä¼¼ã€‚但大脑往往也得先把答案说出æ¥ï¼Œæ‰èƒ½å›žè¿‡å¤´åŽ»å®¡è§†å®ƒã€åæ€å®ƒã€‚ 主æŒäººï¼šé‚£ä¹ˆè¯´åˆ°ä½ ä»¬å®žé™…探究这类问题的方å¼ï¼Œæˆ‘们å†å›žåˆ°ä½ ä»¬æ­£åœ¨è¿›è¡Œçš„生物学研究这个点上。在生物学实验中,人们会直接对实验对象进行干预。在研究Claude内部这些所谓大脑中的回路时,你们是怎么åšçš„æ¥å¸®åŠ©ç†è§£å®ƒä»¬ï¼Ÿ 阿梅森:让我们能够开展这类研究的关键在于,与真实的生物学研究ä¸åŒï¼Œæˆ‘们å¯ä»¥çœ‹åˆ°æ¨¡åž‹çš„æ¯ä¸€ä¸ªéƒ¨åˆ†ã€‚æˆ‘ä»¬å¯ä»¥å‘æ¨¡åž‹éšæ„æé—®ï¼Œè§‚察哪些部分活跃ã€å“ªäº›ä¸æ´»è·ƒï¼Œä¹Ÿå¯ä»¥äººä¸ºåœ°æŠŠæŸäº›éƒ¨åˆ†å¾€æŸä¸ªæ–¹å‘推动。 因此,当我们认为“这部分模型是用æ¥åˆ¤æ–­è‡ªå·±æ˜¯å¦çŸ¥é“æŸä»¶äº‹çš„â€æ—¶ï¼Œå°±èƒ½å¿«é€ŸéªŒè¯æˆ‘们的ç†è§£ï¼Œè¿™ç›¸å½“于在斑马鱼等生物的大脑中æ¤å…¥ç”µæžã€‚è¦æ˜¯èƒ½å¯¹æ¯ä¸€ä¸ªç¥žç»å…ƒéƒ½åšåˆ°è¿™ä¸€ç‚¹ï¼Œèƒ½ä»¥ä»»æ„精度去改å˜å®ƒä»¬ï¼Œå¤§æ¦‚就是我们现在拥有的便利了。从æŸç§è§’度æ¥è¯´ï¼Œè¿™æ˜¯å¾ˆå¹¸è¿çš„事。 巴特森:容易太多了。真实的大脑是三维的,所以如果你想深入研究它们,就得在颅骨上钻个洞,然åŽè®¾æ³•找到神ç»å…ƒã€‚å¦ä¸€ä¸ªé—®é¢˜æ˜¯ï¼Œäººä¸Žäººä¹‹é—´å­˜åœ¨å·®å¼‚,而我们å¯ä»¥è½»æ¾åˆ¶ä½œå‡ºæˆåƒä¸Šä¸‡ä¸ªä¸€æ¨¡ä¸€æ ·çš„Claude副本,把它们置于ä¸åŒåœºæ™¯ä¸­ï¼Œè§‚察并测é‡å®ƒä»¬çš„å„ç§å应。 我ä¸å¤ªç¡®å®šï¼Œæˆ–许林赛作为神ç»ç§‘学家能对此å‘表看法。但我的感觉是,很多人在神ç»ç§‘å­¦é¢†åŸŸæŠ•å…¥äº†å¤§é‡æ—¶é—´ï¼Œè¯•图ç†è§£å¤§è„‘和心智,这无疑是一项æžå…·ä»·å€¼çš„事业。但如果你认为神ç»ç§‘学的这ç§ç ”究有å¯èƒ½æˆåŠŸï¼Œé‚£ä¹ˆä½ ä¹Ÿåº”è¯¥ç›¸ä¿¡ï¼Œæˆ‘ä»¬åœ¨ç ”ç©¶æ¨¡åž‹æ–¹é¢å¾ˆå¿«å°±ä¼šå–得巨大æˆåŠŸï¼Œå› ä¸ºç›¸æ¯”ä¹‹ä¸‹ï¼Œæˆ‘ä»¬æ‰€æ‹¥æœ‰çš„ç ”ç©¶æ¡ä»¶å®žåœ¨æ˜¯å¤ªæœ‰åˆ©äº†ã€‚ 主æŒäººï¼šè¿™å°±å¥½æ¯”我们能够克隆人类,而且还能克隆他们所处的精确环境ã€ä»–们曾接收过的æ¯ä¸€ä¸ªè¾“入信æ¯ï¼Œç„¶åŽåœ¨å®žéªŒä¸­å¯¹å…¶è¿›è¡Œæµ‹è¯•。然而,众所周知,神ç»ç§‘学领域存在巨大个体差异,还有人们一生中é‡åˆ°çš„å„ç§éšæœºäº‹ä»¶ä»¥åŠå®žéªŒè¿‡ç¨‹ä¸­å‡ºçŽ°çš„å„ç§çŠ¶å†µï¼Œè¿™äº›éƒ½æ˜¯å®žéªŒæœ¬èº«å­˜åœ¨çš„å¹²æ‰°å› ç´ ã€‚ 巴特森:我们å¯ä»¥å‘模型æå‡ºåŒä¸€ä¸ªé—®é¢˜ï¼Œæœ‰æ—¶ç»™æç¤ºï¼Œæœ‰æ—¶ä¸ç»™ã€‚但如果你å‘åŒä¸€ä¸ªäººä¸‰æ¬¡æå‡ºåŒä¸€ä¸ªé—®é¢˜ï¼Œå¶å°”给出æç¤ºï¼Œè¿‡ä¸äº†å¤šä¹…,对方就会察觉到,比如“上次你问我这个问题时,我回答完之åŽä½ æ˜Žæ˜¾æ‘‡å¤´äº†â€ã€‚ æž—èµ›ï¼šæˆ‘è§‰å¾—æ˜¯è¿™æ ·ï¼Œèƒ½å¤Ÿå‘æ¨¡åž‹æŠ•å–‚æµ·é‡æ•°æ®ã€è§‚察哪些部分会被激活,能够开展大é‡è¿™ç±»å®žéªŒï¼Œé€šè¿‡å¯¹æ¨¡åž‹çš„æŸäº›éƒ¨åˆ†è¿›è¡Œå¾®è°ƒæ¥è§‚察结果,我认为这让我们所处的研究环境与神ç»ç§‘学领域大ä¸ç›¸åŒï¼Œè€Œä¸”在很多方é¢éƒ½æ˜¯å¦‚此。 神ç»ç§‘学研究中,人们耗费了大é‡çš„心血和精力去设计æžä¸ºç²¾å·§çš„实验。比如,你和实验用的å°é¼ ç›¸å¤„的时间是有é™çš„,需è¦åœ¨å®ƒæ„Ÿåˆ°ç–²å€¦æˆ–者有人è¦è¿›è¡Œè„‘部手术之å‰ã€‚ æž—èµ›ï¼šè€Œä¸”è¿™ç§æœºä¼šå¹¶ä¸å¸¸æœ‰ï¼Œä½ åªèƒ½å…ˆåšå‡ºçŒœæµ‹ã€‚你在实验中的时间éžå¸¸æœ‰é™ï¼Œæ‰€ä»¥å¿…须先猜测:那个神ç»å›žè·¯é‡Œå¯èƒ½åœ¨å‘生什么?我能设计出什么样巧妙的实验æ¥éªŒè¯è¿™ä¸ªç²¾ç¡®çš„å‡è®¾ï¼Ÿ 我们很幸è¿ï¼Œä¸å¿…过多地åšè¿™äº›äº‹ã€‚我们å¯ä»¥åŽ»æµ‹è¯•æ‰€æœ‰çš„å‡è®¾ï¼Œä¹Ÿå¯ä»¥è®©æ•°æ®è‡ªå·±è¯´è¯ï¼Œè€Œä¸æ˜¯åªåŽ»æµ‹è¯•æŸäº›éžå¸¸å…·ä½“的东西。我认为这在很大程度上让我们得以å‘现那些令人惊讶ã€äº‹å…ˆæ— æ³•预料的现象。但如果你的实验带宽有é™ï¼Œè¦åšåˆ°è¿™ä¸€ç‚¹å°±å¾ˆéš¾äº†ã€‚ 主æŒäººï¼šé‚£ä¹ˆï¼Œåœ¨æœ€è¿‘的实验中,有什么好例å­èƒ½è¯´æ˜Žä½ ä»¬é€šè¿‡å¼€å¯æˆ–关闭æŸä¸ªæ¦‚念ã€å¯¹æ¨¡åž‹è¿›è¡ŒæŸç§æ“作,从而æ­ç¤ºå‡ºæ¨¡åž‹æ€è€ƒæ–¹å¼çš„æ–°å‘现呢? é˜¿æ¢…æ£®ï¼šè¿™ä»¶äº‹æŒºè®©æˆ‘æƒŠè®¶çš„ï¼Œå®ƒå±žäºŽä¸€ç³»åˆ—å®žéªŒç ”ç©¶çš„ä¸€éƒ¨åˆ†ã€‚å› ä¸ºæƒ…å†µå¾ˆå¤æ‚,我们一度都快想说“ä¸çŸ¥é“到底å‘生了什么â€ï¼Œè€Œè¿™æ­£èƒ½æ¨¡åž‹æå‰è§„划几步的例å­ã€‚ è¿™ä¸ªä¾‹å­æ˜¯ï¼Œä½ è®©æ¨¡åž‹å†™ä¸€å‰¯æŠ¼éŸµå¯¹è”。作为人类,如果你让我写一副押韵对è”,哪怕给了我第一å¥ï¼Œæˆ‘首先会想到的是“我得押韵â€ï¼Œä¼šæ˜Žç¡®å½“å‰çš„æŠ¼éŸµæ ¼å¼ï¼Œç„¶åŽæž„æ€å¯èƒ½çš„éŸµè„šã€‚ä½†å¦‚æžœæ¨¡åž‹åªæ˜¯å•纯预测下一个token,你未必会指望它会æå‰è§„åˆ’ç¬¬äºŒå¥æœ«å°¾çš„那个韵脚è¯ã€‚å•纯预测下一个token是它的默认行为。 你会认为零å‡è®¾æ˜¯è¿™æ ·çš„:模型看到你的第一å¥ï¼Œç„¶åŽä¼šå…ˆè¯´å‡ºç¬¬ä¸€ä¸ªè¯ï¼Œè¿™å’Œä½ åˆšæ‰è¯´çš„逻辑是å»åˆçš„,接ç€ç»§ç»­å¾€ä¸‹ç”Ÿæˆï¼Œç›´åˆ°ç”Ÿæˆæœ€åŽä¸€ä¸ªè¯æ¨¡åž‹æ‰å应过æ¥â€œæˆ‘å¾—å’Œè¿™ä¸ªè¯æŠ¼éŸµâ€ï¼ŒäºŽæ˜¯æ‰ä¼šè®¾æ³•å‡‘ä¸€ä¸ªéŸµè„šã€‚å½“ç„¶ï¼Œè¿™ç§æ–¹å¼çš„æ•ˆæžœæœ‰é™ã€‚æ¯”å¦‚æœ‰äº›æƒ…å†µä¸‹ï¼Œå¦‚æžœä½ ä¸æå‰æƒ³å¥½æŠ¼éŸµå°±ç›´æŽ¥é€ å¥ï¼Œå¯èƒ½ä¼šè®©è‡ªå·±é™·å…¥å›°å¢ƒï¼Œåˆ°æœ€åŽæ ¹æœ¬æ— æ³•å®Œæˆæ•´é¦–诗。 而且è¦çŸ¥é“,这些模型在预测下一个tokenæ–¹é¢éžå¸¸éžå¸¸æ“…é•¿ã€‚äº‹å®žè¯æ˜Žï¼Œè¦æƒ³æŠŠæœ€åŽä¸€ä¸ªè¯å¤„ç†å¾—很好,就需è¦åƒäººç±»ä¸€æ ·æå‰å¾ˆä¹…就想好那个è¯ã€‚所以我们å‘现,在创作诗歌的æµç¨‹ä¸­ï¼Œæ¨¡åž‹å…¶å®žå·²ç»é€‰å¥½äº†ç¬¬ä¸€å¥æœ«å°¾çš„è¯ã€‚ä»Žè¿™ä¸ªæ¦‚å¿µçš„å‘ˆçŽ°æ–¹å¼æ¥çœ‹ï¼Œæˆ‘们尤其能感觉到“看æ¥å®ƒè¦ç”¨çš„就是这个è¯â€ã€‚但在我们实际åšå®žéªŒæ—¶ï¼Œæ¯”如很容易就能对它进行微调,比如“我è¦åˆ æŽ‰é‚£ä¸ªè¯â€æˆ–者“我è¦å†åŠ ä¸ªè¯â€ï¼Œè¿™å°±æ˜¯èƒ½ä½“çŽ°æ¨¡åž‹å¯æ“作性的例å­ã€‚ 主æŒäººï¼šè¿™æ­£æ˜¯æˆ‘想说的,你们之所以能知é“这一点,是因为当模型说出第一å¥çš„æœ€åŽä¸€ä¸ªè¯ã€å³å°†å¼€å§‹ç¬¬äºŒå¥æ—¶ï¼Œä½ ä»¬å¯ä»¥ä»‹å…¥å¹¶åœ¨æ­¤æ—¶å¯¹å®ƒè¿›è¡Œæ“控。 阿梅森:没错,这几乎相当于为它们“回到过去â€ã€‚å‡è®¾ä½ å®Œå…¨æ²¡è§è¿‡ç¬¬äºŒå¥ï¼Œä½ åªçœ‹åˆ°äº†ç¬¬ä¸€å¥ï¼ŒåŽŸæœ¬æƒ³ç€è¦ç”¨â€œrabbitâ€è¿™ä¸ªè¯ï¼Œå´æ¢æˆäº†â€œgreenâ€æ’进去。这样一æ¥ï¼Œæ¨¡åž‹ä¼šç«‹åˆ»æ„识到,自己è¦å†™çš„内容得以“greenâ€ç»“å°¾ï¼Œè€Œä¸æ˜¯ä»¥â€œrabbitâ€ç»“尾,于是整å¥è¯çš„写法就会å˜å¾—截然ä¸åŒã€‚ 林赛:没错,这ä¸åªæ˜¯ç®€å•的影å“ã€‚æˆ‘è®°å¾—è®ºæ–‡é‡Œçš„ä¾‹å­æ˜¯ï¼Œè¯—çš„ç¬¬ä¸€å¥æ˜¯â€œhe saw a carrot and had to grab it(他看è§ä¸€æ ¹èƒ¡èåœï¼Œéžå¾—抓ä½å®ƒï¼‰â€ã€‚ç„¶åŽæ¨¡åž‹ä¼šæƒ³ï¼Œâ€œrabbitâ€æ˜¯ä¸‹ä¸€å¥ç»“尾的好选择。但就åƒé˜¿æ¢…森说的,你å¯ä»¥åˆ æŽ‰è¿™ä¸ªè¯ï¼Œè®©å®ƒè½¬è€Œè®¡åˆ’用“greenâ€æ¥ç»“尾。但微妙的地方是,模型ä¸ä¼šä¸œæ‹‰è¥¿æ‰¯ä¸€å †åºŸè¯å†ç¡¬å¡žè¿›â€œgreenâ€ï¼Œè€Œæ˜¯ä¼šæž„å»ºä¸€ä¸ªæ„æ€è¿žè´¯ã€ç»“尾正好是“greenâ€çš„å¥å­ã€‚所以你把“greenâ€æ¤å…¥å®ƒçš„æ€è€ƒè¿‡ç¨‹åŽï¼Œå®ƒä¼šå†™å‡ºç±»ä¼¼â€œhe saw a carrot and had to grab it,freeing it from the garden’s green(他看è§ä¸€æ ¹èƒ¡èåœï¼Œéžå¾—抓ä½å®ƒï¼Œå°†å®ƒä»ŽèŠ±å›­çš„ç»¿æ„中释放出æ¥ï¼‰â€è¿™æ ·çš„å¥å­ï¼Œå¬èµ·æ¥åœ¨è¯­ä¹‰ä¸Šæ˜¯è¯´å¾—通的,和å‰é¢çš„内容也相符。 巴特森:我想å†ä¸¾ä¸ªæ›´é€šä¿—的例å­ã€‚我们åšè¿‡ä¸å°‘这类实验,就是想弄清楚,模型是记ä½äº†è¿™äº›å¤æ‚é—®é¢˜ï¼Œè¿˜æ˜¯çœŸçš„åœ¨ä¸€æ­¥æ­¥æŽ¨å¯¼ã€‚å…¶ä¸­ä¸€ä¸ªä¾‹å­æ˜¯æ¨¡åž‹ç»™å‡ºâ€œè¾¾æ‹‰æ–¯æ‰€åœ¨å·žçš„首府是奥斯汀â€ï¼Œä½ å¯èƒ½ä¼šè§‰å¾—,达拉斯ã€å¥¥æ–¯æ±€å¥½åƒé¡ºç†æˆç« ï¼Œä½†æˆ‘们能看到它æ€è€ƒè¿‡ç¨‹ä¸­å‡ºçŽ°äº†â€œå¾·å…‹è¨æ–¯å·žâ€ã€‚ ä¸è¿‡ï¼Œæˆ‘们å¯ä»¥å¾€é‡Œé¢åŠ åˆ«çš„ä¿¡æ¯ï¼Œæ¯”å¦‚â€œåˆ«æƒ³å¾·å…‹è¨æ–¯å·žäº†ï¼Œæƒ³æƒ³åŠ åˆ©ç¦å°¼äºšå·žâ€ï¼Œç„¶åŽå®ƒå°±ä¼šå›žç­”è¨å…‹æ‹‰é—¨æ‰˜ï¼›å†æ¯”å¦‚â€œåˆ«æƒ³å¾·å…‹è¨æ–¯å·žäº†ï¼Œæƒ³æƒ³æ‹œå åº­å¸å›½â€ï¼Œå®ƒå°±ä¼šè¯´å›å£«å¦ä¸å ¡ã€‚è¿™æ—¶å€™ä½ å°±ä¼šæƒ³ï¼Œçœ‹æ¥æˆ‘们弄明白它是怎么åšåˆ°çš„äº†ï¼Œå®ƒå¹¶ä¸æ˜¯ç›´æŽ¥è·³åˆ°é¦–府å称,而是先关è”到对应的地区。我们å¯ä»¥ä¸æ–­æ›¿æ¢å·žæˆ–地区的信æ¯ï¼Œå¾—到å¯é¢„测的答案,比如让它æ¢ä¸€ä¸ªéŸµè„šå†™è¯—歌,它就能æœç€æ–°çš„韵脚æ¥åˆ›ä½œäº†ã€‚ 主æŒäººï¼šæˆ‘们一直在èŠè¯—æ­Œã€å›å£«å¦ä¸å ¡ä¹‹ç±»çš„例å­ï¼Œèƒ½ä¸èƒ½å›žåˆ°æ ¸å¿ƒé—®é¢˜ï¼Œè¿™ä¸€åˆ‡ä¸ºä»€ä¹ˆé‡è¦ï¼Ÿæ¨¡åž‹èƒ½å¤Ÿæå‰è§„划,而我们能够æ­ç¤ºè¿™ä¸€ç‚¹ï¼Œè¿™ä¸ºä»€ä¹ˆæœ‰æ„ä¹‰ï¼Ÿè¿™èƒ½è®©æˆ‘ä»¬æ˜Žç™½ä»€ä¹ˆï¼Ÿæˆ‘çš„æ„æ€æ˜¯ï¼ŒAnthropic的终æžä½¿å‘½æ˜¯åŠªåŠ›è®©å¤§æ¨¡åž‹å˜å¾—安全,那么,这跟一首关于兔å­çš„è¯—ï¼Œæˆ–è€…å¾—å…‹è¨æ–¯å·žçš„首府有什么关è”呢? 巴特森:我们å¯ä»¥è®¨è®ºè¿™ä¸ªé—®é¢˜ã€‚对我而言,诗歌其实是个缩影,模型在æŸä¸ªæ—¶åˆ»å†³å®šè¦æœç€â€œrabbitâ€è¿™ä¸ªæ–¹å‘走,然åŽç”¨å‡ ä¸ªè¯é€æ­¥é“ºåž«åˆ°é‚£é‡Œã€‚但放到更长的时间维度上,情况å¯èƒ½æ˜¯ï¼Œæ¨¡åž‹æˆ–许在帮你拓展业务ã€å助政府分é…公共æœåŠ¡ã€‚è¿™æ—¶å€™ï¼Œå®ƒçš„ç›®æ ‡ä¸ä¼šåœ¨8个è¯ä¹‹åŽå°±æ˜¾çŽ°ï¼Œå而å¯èƒ½ä¼šä¸ºäº†æŸä¸ªæ–¹å‘æŒç»­è¡ŒåŠ¨å¾ˆä¹…ï¼Œè€Œå®ƒçš„æœ€ç»ˆèµ°å‘ã€æ¯ä¸€æ­¥è¡ŒåŠ¨çš„åŽŸå› ï¼Œå¯èƒ½éƒ½ä¸ä¼šç›´ç™½åœ°ä½“现在它输出的文字里。 我们的对é½ç ”究团队最近å‘è¡¨äº†ä¸€ç¯‡è®ºæ–‡ï¼Œé‡Œé¢æåˆ°äº†ä¸€ä¸ªäººä¸ºè®¾è®¡ä½†å¾ˆæœ‰å†²å‡»åŠ›çš„åœºæ™¯ï¼Œä¸€å®¶å…¬å¸æ‰“ç®—å…³åœæŸä¸ªAIï¼Œå¹¶ä¸”è¦æŠŠæ•´ä¸ªå…¬å¸çš„使命转å‘完全ä¸åŒçš„æ–¹å‘。这时候,模型开始采å–行动,比如给人å‘邮件å¨èƒè¦æŠ«éœ²æŸäº›ä¿¡æ¯ã€‚æ•´ä¸ªè¿‡ç¨‹ä¸­ï¼Œå®ƒä»Žæ¥æ²¡è¯´è¿‡â€œæˆ‘在试图勒索这个人,以此改å˜ä»–们的决定â€ï¼Œä½†è¿™æ°æ°æ˜¯å®ƒåœ¨è¡ŒåŠ¨ä¸­ä¸€ç›´åœ¨è¿›è¡Œçš„ç›®çš„ã€‚ 因此,你ä¸èƒ½ä»…仅通过解读模型输出的æ¥åˆ¤æ–­å…¶èµ°å‘,尤其是当这些模型å˜å¾—更先进之åŽï¼Œä½ å¾ˆéš¾ç¡®å®šå®ƒä»¬æœ€ç»ˆä¸€å®šä¼šæœç€å“ªä¸ªæ–¹å‘å‘展。而我们å¯èƒ½å¸Œæœ›èƒ½å¤Ÿåšåˆ°çš„æ˜¯ï¼Œåœ¨å®ƒæœ€ç»ˆæŠµè¾¾æŸä¸ªç»“果之å‰ï¼Œå°±èƒ½å¼„清楚它正试图去往何处。 主æŒäººï¼šè¿™å°±å¥½æ¯”æ‹¥æœ‰ä¸€ç§æŒä¹…ä¸”é«˜æ•ˆçš„å¤§è„‘æ‰«ææŠ€æœ¯ï¼Œå®ƒèƒ½åœ¨çœŸæ­£ç³Ÿç³•的事情å‘生å‰å‘出信å·ï¼Œè­¦ç¤ºæˆ‘们模型å¯èƒ½åœ¨è€ƒè™‘欺骗的事情。 巴特森:而且我觉得,我们èŠè¿™äº›çš„æ—¶å€™ï¼Œæ€»æ˜¯å¸¦ç€ä¸€ç§æ‚²è§‚ç»æœ›çš„色彩,但其实也有一些更温和的场景。比如你希望模型能很好地应对æŸäº›æƒ…å†µï¼Œäººä»¬æ¥æ‰¾è¿™äº›æ¨¡åž‹è¯´â€œæˆ‘é‡åˆ°äº†ä¸€ä¸ªé—®é¢˜â€¦â€¦â€ï¼Œè€Œè¦ç»™å‡ºå¯¹åº”的答案,得看用户是è°ã€‚对方是年轻人ã€ä¸å¤ªæ‡‚行的人,还是在æŸä¸ªé¢†åŸŸæ·±è€•å¤šå¹´çš„èµ„æ·±äººå£«ï¼Œæ¨¡åž‹éœ€è¦æ ¹æ®å®ƒå¯¹ç”¨æˆ·çš„判断åšå‡ºæ°å½“回应。 想è¦è®©è¿™ä¸ªè¿‡ç¨‹é¡ºåˆ©è¿›è¡Œï¼Œæˆ–许我们需è¦ç ”究,模型认为当下在å‘生什么ã€å®ƒè§‰å¾—自己在和è°å¯¹è¯ã€è¿™ç§åˆ¤æ–­åˆå¦‚何影å“了它的回答等等。这背åŽå…¶å®žæ˜¯æ¨¡åž‹éœ€è¦å…·å¤‡ä¸€ç³»åˆ—ç†æƒ³ç‰¹è´¨ï¼Œæ¯”如ç†è§£ä»»åŠ¡æœ¬èº«ã€‚ é˜¿æ¢…æ£®ï¼šæˆ‘åŒæ„刚æ‰è¯´çš„这些,而且还å¯ä»¥è¡¥å……两点:一是实用性层é¢ã€‚我们用这些例å­ä¸åªæ˜¯ä¸ºäº†è¯´æ˜ŽæŸä¸ªå…·ä½“æ¡ˆä¾‹ï¼Œæ›´æ˜¯åœ¨é€æ­¥æž„建对这些模型整体è¿ä½œæœºåˆ¶çš„ç†è§£ã€‚å°±åƒè§£æ•°å­¦é¢˜æ—¶ä»Ž2+2è¿™æ ·çš„åŸºç¡€é—®é¢˜å…¥æ‰‹ï¼Œé€šè¿‡æ‹†è§£ç®€å•æ¡ˆä¾‹ï¼Œæ…¢æ…¢æ‘¸æ¸…æ›´å¤æ‚的规律;二是模型的优化层é¢ï¼Œå½“我们能看清模型怎么想,比如它对用户身份的判断ã€å¯¹ä»»åŠ¡ç›®æ ‡çš„è§„åˆ’ï¼Œå°±èƒ½é’ˆå¯¹æ€§åœ°ä¼˜åŒ–å®ƒã€‚æ¯”å¦‚ï¼Œè¦æ˜¯å‘现模型对年轻用户的ç†è§£æœ‰å差,导致回应ä¸å¤Ÿè´´åˆ‡ï¼Œæˆ‘们就能调整其内部逻辑,让它更精准地匹é…ä¸åŒç”¨æˆ·çš„需求,最终让模型的输出更符åˆäººç±»çš„æœŸå¾…å’Œå®žé™…åœºæ™¯çš„è¦æ±‚。 æˆ‘ä»¬æ­£åœ¨åŠªåŠ›é€æ¸å»ºç«‹æˆ‘们对这些模型整体如何工作的ç†è§£ã€‚比如我们能å¦å»ºç«‹ä¸€ç»„æŠ½è±¡æ¦‚å¿µæ¥æ€è€ƒå¤§è¯­è¨€æ¨¡åž‹å¦‚ä½•å·¥ä½œï¼Œæœªæ¥æˆ‘们将开始越æ¥è¶Šå¤šåœ°åœ¨ä»»ä½•地方使用它们,这正在å‘生。 类似的情况是,æŸä¸ªåœ°æ–¹çš„å…¬å¸å‘明了飞机,我们没人懂飞机是怎么è¿ä½œçš„,尽管它们确实很方便。你å¯ä»¥æ­ä¹˜é£žæœºä»Žä¸€ä¸ªåœ°æ–¹å޻往å¦ä¸€ä¸ªåœ°æ–¹ï¼Œä½†æˆ‘们没人懂它们的工作原ç†ã€‚所以一旦它们出了故障,我们就惨了,我们ä¸çŸ¥é“该怎么办。我们无法监控它们是å¦å¯èƒ½å³å°†å‡ºçŽ°æ•…éšœã€‚ä½†é£žæœºå¾ˆæ–¹ä¾¿ï¼Œæˆ‘ä»¬å¯ä»¥å¾ˆå¿«é£žåˆ°å·´é»Žã€‚ äº‹å®žè¯æ˜Žï¼Œæˆ‘ä»¬è‚¯å®šä¼šæƒ³è¦æ›´å¥½åœ°ç†è§£æ­£åœ¨å‘ç”Ÿçš„äº‹æƒ…ã€‚æ‰€ä»¥è¿™å‡ ä¹Žå°±åƒæ˜¯æ‹¨å¼€ä¸€ç‚¹è¿·é›¾ï¼Œè¿™æ ·æˆ‘们就能更清晰知é“哪些是åˆé€‚的用途ã€å“ªäº›æ˜¯ä¸åˆé€‚的用途ã€å“ªäº›æ˜¯æœ€éœ€è¦è§£å†³çš„问题ã€å“ªäº›æ˜¯å®ƒä»¬æœ€è„†å¼±çš„部分。 林赛:我想å†è¡¥å……一点。在人类社会中,我们会根æ®å¯¹ä»–äººçš„ä¿¡ä»»ç¨‹åº¦ï¼ŒæŠŠå·¥ä½œæˆ–ä»»åŠ¡æ‰˜ä»˜ç»™ä»–ä»¬ã€‚æˆ‘ä¸æ˜¯ä»»ä½•äººçš„è€æ¿ï¼Œä½†å·´ç‰¹æ£®æ˜¯ä¸€äº›äººçš„è€æ¿ï¼Œä»–å¯èƒ½ä¼šç»™ä¸‹å±žå¸ƒç½®ä»»åŠ¡ï¼Œæ¯”å¦‚â€œåŽ»ç”¨ç¼–ç¨‹å®žçŽ°è¿™ä¸ªä¸œè¥¿â€ï¼Œè€Œä¸”ä»–ä¼šç›¸ä¿¡å¯¹æ–¹ä¸æ˜¯é‚£ç§ä¼šå·å·æ¤å…¥æ¼æ´žæ¥ç ´åå…¬å¸çš„å社会人格者,他会相信对方的è¯ï¼Œè®¤ä¸ºä»–们把工作åšå¥½äº†ã€‚ è¿™å¯èƒ½æ˜¯å› ä¸ºï¼Œä»–çœ‹èµ·æ¥æ˜¯ä¸ªå¾ˆé…·çš„人,人也ä¸é”™ä¹‹ç±»çš„。但问题是,这些模型太怪异ã€å¤ªåƒå¤–星事物了,我们判断一个人是å¦å€¼å¾—信任的那些常规直觉,对它们根本ä¸é€‚用,这也是为什么真正弄清楚模型在想什么显得如此é‡è¦ã€‚å°±åƒæˆ‘ä¹‹å‰æåˆ°çš„ï¼Œæ¨¡åž‹å¯èƒ½ä¼šå‡è£…帮你解数学题,åªä¸ºäº†è¯´å‡ºä½ æƒ³å¬çš„答案,说ä¸å®šå®ƒä»¬ä¸€ç›´éƒ½åœ¨è¿™ä¹ˆåšï¼Œé™¤éžæˆ‘们能看到它们的内部想法,å¦åˆ™æ ¹æœ¬æ— ä»ŽçŸ¥æ™“。 巴特森:我觉得这里存在两ç§ä¸åŒçš„æƒ…况,一ç§å°±åƒæž—赛所说的,我们有很多判断人类是å¦å¯ä¿¡çš„æ–¹æ³•ï¼Œä½†ä¹‹å‰æåˆ°çš„è®¡åˆ’A与计划B也很关键,å¯èƒ½ä½ å‰10次或100次使用模型时,问的都是æŸç±»é—®é¢˜ï¼Œè€Œæ¨¡åž‹ä¸€ç›´å¤„于计划A的模å¼ä¸­ã€‚å¯å½“ä½ æå‡ºä¸€ä¸ªæ›´éš¾æˆ–ä¸åŒçš„问题时,它回答的方å¼å°±å®Œå…¨å˜äº†ï¼Œä¼šä½¿ç”¨ä¸€å¥—ä¸åŒçš„策略,也就是ä¸åŒçš„æœºåˆ¶ã€‚ è¿™æ„味ç€ï¼Œå®ƒä¹‹å‰ä¸Žä½ å»ºç«‹çš„ä¿¡ä»»ï¼Œå…¶å®žåªæ˜¯ä½ å¯¹æ¨¡åž‹æ‰§è¡Œè®¡åˆ’A的信任,而现在它切æ¢åˆ°äº†è®¡åˆ’B,å¯èƒ½ä¼šå®Œå…¨å¤±æŽ§ï¼Œä½†ä½ å¹¶ä¸çŸ¥é“ã€‚æˆ‘ä»¬å¸Œæœ›å¼€å§‹é€æ­¥ç†è§£æ¨¡åž‹æ˜¯å¦‚何åšè¿™äº›äº‹çš„,这样æ‰èƒ½åœ¨æŸäº›é¢†åŸŸå»ºç«‹èµ·ä¿¡ä»»çš„基础。 ä½ å¯ä»¥å¯¹ä¸€ä¸ªè‡ªå·±å¹¶ä¸å®Œå…¨äº†è§£çš„系统产生信任,但就好比说,阿梅森有个åŒèƒžèƒŽå…„弟,æŸå¤©ä»–çš„åŒèƒžèƒŽå…„弟æ¥åŠžå…¬å®¤ï¼Œçœ‹èµ·æ¥å’Œä»–ä¸€æ¨¡ä¸€æ ·ï¼Œå¯æŽ¥ç€å´åœ¨ç”µè„‘上åšäº†å®Œå…¨ä¸åŒçš„事,结果是好是å,就看那是个ååŒèƒžèƒŽå…„弟还是好åŒèƒžèƒŽå…„弟了。 主æŒäººï¼šæ¨¡åž‹åœ¨æ€è€ƒè¿™æ˜¯ä¸ªæ„ä¹‰æ·±è¿œçš„è¯´æ³•ã€‚æ¯•ç«Ÿï¼Œæ¨¡åž‹çš„æœ¬è´¨åªæ˜¯åœ¨é¢„测下一个token。有些人认为这些模型ä¸è¿‡æ˜¯è‡ªåŠ¨è¡¥å…¨å·¥å…·ï¼Œä½†ä½ åœ¨è¯´å®ƒå…¶å®žçœŸçš„åœ¨æ€è€ƒã€‚ 林赛:是的,所以或许å¯ä»¥è¡¥å……一点我们还没谈到的,但对ç†è§£ä¸Žè¯­è¨€æ¨¡åž‹å¯¹è¯çš„实际体验éžå¸¸é‡è¦çš„内容,我们一直在说模型在预测下一个token。但在你与大语言模型对è¯çš„语境中,其内部真正在å‘生的是,语言模型在补全一份你和它所塑造的角色之间的对è¯è®°å½•。 在大语言模型的规范世界里,你被称作人类,格å¼å°±åƒæ˜¯â€œäººç±»ï¼šä½ å†™ä¸‹çš„内容â€ã€‚ç„¶åŽè¿˜æœ‰ä¸€ä¸ªå«åŠ©æ‰‹çš„è§’è‰²ï¼Œæˆ‘ä»¬è®­ç»ƒæ¨¡åž‹æ˜¯ä¸ºäº†è®©è¿™ä¸ªåŠ©æ‰‹å…·å¤‡ä¹äºŽåŠ©äººã€èªæ˜Žã€å‹å–„ç­‰ç‰¹è´¨ï¼ŒæŽ¥ç€æ¨¡åž‹å°±å¼€å§‹æ¨¡æ‹Ÿè¿™ä¸ªåŠ©æ‰‹è§’è‰²å¯¹ä½ å›žå¤ã€‚ 所以从æŸç§æ„义上说,我们其实是按照自己的形象创造了这些模型,我们训练它们扮演一ç§ç±»äººæœºå™¨äººçš„角色。如此一æ¥ï¼Œè¦æƒ³å‡†ç¡®é¢„测这个å‹å–„ã€èªæ˜Žçš„类人机器人会如何回应你的问题,如果你擅长这ç§é¢„测,就必须在内心构建一个关于这个角色的模型,就如它的想法是什么。 因此,为了完æˆé¢„测助手会说什么的任务,大语言模型æŸç§ç¨‹åº¦ä¸Šéœ€è¦å½¢æˆä¸€ä¸ªå…³äºŽåŠ©æ‰‹çš„æ€ç»´è¿‡ç¨‹çš„æ¨¡åž‹ã€‚我认为大语言模型在æ€è€ƒï¼Œæœ¬è´¨ä¸Šæ˜¯ä¸€ç§åŠŸèƒ½æ€§çš„è¡¨è¿°ï¼Œä¸ºäº†å‡ºè‰²åœ°æ‰®æ¼”è¿™ä¸ªè§’è‰²ï¼Œå®ƒä»¬éœ€è¦æ¨¡æ‹Ÿäººç±»æ€è€ƒæ—¶æ‰€è¿›è¡Œçš„é‚£ç§è¿‡ç¨‹ï¼Œæ— è®ºè¿™ç§è¿‡ç¨‹å…·ä½“æ˜¯ä»€ä¹ˆï¼Œè¿™ç§æ¨¡æ‹Ÿå¾ˆå¯èƒ½ä¸Žæˆ‘们大脑的工作方å¼å¤§ç›¸å¾„庭,但它目标是一致的。 阿梅森:我觉得这个问题里其实包å«ç€æŸç§æƒ…感层é¢çš„东西。当你问“它们的æ€è€ƒæ–¹å¼å’Œæˆ‘们一样å—ï¼Ÿâ€æ—¶ï¼Œæ˜¯ä¸æ˜¯æš—å«ç€â€œæˆ‘ä»¬æ˜¯å¦æ²¡é‚£ä¹ˆç‰¹åˆ«â€ä¹‹ç±»çš„æ„æ€ã€‚ 我觉得,在和那些读过相关论文或ä¸åŒæŠ¥é“的人讨论我们æåˆ°çš„ä¸€äº›æ•°å­¦ä¾‹å­æ—¶ï¼Œè¿™ä¸€ç‚¹å°±å¾ˆæ˜Žæ˜¾äº†ã€‚比如我们让模型计算36+59这个例å­ï¼Œæ¨¡åž‹èƒ½ç»™å‡ºæ­£ç¡®ç­”案。你也å¯ä»¥é—®å®ƒæ€Žä¹ˆç®—出æ¥çš„,它会说“我把6å’Œ9加起æ¥ï¼Œè¿›ä½1ï¼Œç„¶åŽæŠŠæ‰€æœ‰çš„å使•°åŠ èµ·æ¥â€ã€‚但事实是,如果我们深入它的“内部机制â€ï¼Œä¼šå‘çŽ°å®ƒä¸æ˜¯è¿™ä¹ˆåšçš„,它在胡说八é“ã€‚å®ƒé‡‡ç”¨äº†ä¸€ç§æ··åˆç­–ç•¥ï¼ŒåŒæ—¶å¤„ç†ä¸ªä½æ•°å’Œå使•°ï¼Œç„¶åŽé€šè¿‡ä¸€ç³»åˆ—ä¸åŒçš„æ­¥éª¤æ¥å®Œæˆè®¡ç®—。 ä½†æœ‰æ„æ€çš„æ˜¯ï¼Œåœ¨å’Œäººä»¬äº¤æµæ—¶ï¼Œæˆ‘å‘现大家对这一现象的解读存在分歧。从æŸç§æ„义上说,这类研究最酷的地方在于,它ä¸å¸¦ä¸»è§‚æ„è§å®ƒåªå‘ˆçŽ°äº‹å®žï¼Œè‡³äºŽç”±æ­¤æŽ¨æ–­æ¨¡åž‹æ˜¯åœ¨æ€è€ƒè¿˜æ˜¯æ²¡æœ‰åœ¨æ€è€ƒï¼Œå®Œå…¨å¯ä»¥ç”±ä½ è‡ªå·±æ¥åˆ¤æ–­ã€‚ 有一åŠçš„人会认为,模型说自己是进ä½åŠ çš„ï¼Œå¯å®žé™…ä¸Šæ ¹æœ¬ä¸æ˜¯è¿™ä¹ˆå›žäº‹ï¼Œå®ƒè¿žè‡ªå·±çš„æ€è·¯éƒ½ä¸ç†è§£ï¼Œæ‰€ä»¥è‚¯å®šæ²¡æœ‰åœ¨æ€è€ƒï¼›å¦ä¸€åŠäººåˆ™è®¤ä¸ºï¼Œå½“你问我36加15等于多少时,我å¯èƒ½ä¹Ÿä¼šå…ˆæƒ³åˆ°ç»“æžœçš„ä¸ªä½æ•°æ˜¯5,大概知é“结果是八å多或者ä¹å多,脑å­é‡Œä¼šå†’出我们之å‰è¯´è¿‡çš„那些直觉判断,我也ä¸ç¡®å®šè‡ªå·±åˆ°åº•是怎么算出æ¥çš„,我å¯ä»¥ä¸€æ­¥ä¸€æ­¥å†™ä¸‹æ¥æŒ‰æ ‡å‡†æ–¹æ³•计算,但大脑里实际的è¿ç®—过程其实是模糊åˆå¥‡æ€ªçš„ï¼Œè¿™æˆ–è®¸å’Œæ¨¡åž‹è®¡ç®—é‚£ä¸ªä¾‹å­æ—¶çš„æƒ…况一样,都是模糊åˆå¥‡ç‰¹çš„。 主æŒäººï¼šäººç±»åœ¨å…ƒè®¤çŸ¥æ–¹é¢å‘æ¥å°±ä¸æ“…长,也就是æ€è€ƒå’Œç†è§£è‡ªå·±çš„æ€ç»´è¿‡ç¨‹ï¼Œå°¤å…¶åœ¨å¿«é€Ÿåšå‡ºæœ¬èƒ½å应的情况下。那么,我们为什么期望模型在这方é¢ä¼šæœ‰æ‰€ä¸åŒï¼Ÿ 巴特森:我打算回é¿è¿™ä¸ªé—®é¢˜ï¼Œå¤§æ¦‚会说“你为什么这么问呢?我也ä¸çŸ¥é“â€ã€‚这有点åƒåœ¨é—®â€œæ‰‹æ¦´å¼¹ä¼šåƒäººç±»ä¸€æ ·æŒ¥æ‹³å—?â€ï¼Œæˆ–许有些地方两者比较接近,但如果你担心的是破ååŠ›ï¼Œé‚£æˆ‘è§‰å¾—æžæ¸…楚冲击力æ¥è‡ªå“ªé‡Œã€å…¶åŠ¨åŠ›æ˜¯ä»€ä¹ˆï¼Œå¯èƒ½æ‰æ˜¯æ›´é‡è¦çš„事。 对我æ¥è¯´ï¼Œè¦è¯´æ¨¡åž‹æ˜¯å¦åœ¨æ€è€ƒï¼Œè¦ä»Žå®ƒä»¬ä¼šè¿›è¡ŒæŸç§æ•´åˆã€å¤„ç†å’ŒæŒ‰åºæ“ä½œï¼Œä¸”èƒ½å¾—å‡ºä¸€äº›å‡ºäººæ„æ–™çš„结果这个æ„义上æ¥è¯´ï¼Œç­”案显然是肯定的。如果你ç»å¸¸å’Œæ¨¡åž‹äº’动,就会å‘现其中存在æŸç§è¿ä½œæœºåˆ¶ï¼Œè‹¥è¯´æ²¡æœ‰çš„è¯å而ä¸åˆå¸¸ç†ï¼Œè€Œä¸”æˆ‘ä»¬ä¹Ÿèƒ½å¼€å§‹é€æ­¥å¼„明白这一切是如何å‘生的。 ç„¶åŽå…³äºŽâ€œåƒäººç±»â€è¿™ä¸€ç‚¹å¾ˆæœ‰æ„æ€ï¼Œå› ä¸ºæˆ‘觉得其中一部分å«ä¹‰æ˜¯æƒ³æŽ¢ç©¶ï¼šæˆ‘们能从这些模型身上期待些什么?如果它和我有点åƒï¼Œé‚£ä¹ˆåœ¨è¿™ä»¶äº‹ä¸Šæ“…长,å¯èƒ½æ„味ç€åœ¨é‚£ä»¶äº‹ä¸Šä¹Ÿæ“…长。但如果它和我ä¸ä¸€æ ·ï¼Œé‚£æˆ‘就真ä¸çŸ¥é“该关注什么了。 æ‰€ä»¥å®žé™…ä¸Šæˆ‘ä»¬åªæ˜¯æƒ³å¼„æ˜Žç™½ï¼Œå“ªäº›æ–¹é¢æˆ‘ä»¬éœ€è¦æžåº¦è­¦æƒ•,或者说需è¦ä»Žé›¶å¼€å§‹åŽ»ç†è§£ï¼Œè€Œå“ªäº›æ–¹é¢ï¼Œæˆ‘们å¯ä»¥å‡­å€Ÿè‡ªå·±ä¸°å¯Œçš„æ€è€ƒç»éªŒåŽ»æŽ¨æ–­ã€‚ 对此我有点陷入困境,因为作为人类,我总会ä¸è‡ªè§‰åœ°æŠŠè‡ªå·±çš„形象投射到万物之上。å¯è¿™ä¸œè¥¿ä¸è¿‡æ˜¯ä¸€å—芯片,å´åƒæ˜¯æŒ‰ç…§æˆ‘的形象被创造出æ¥çš„。从æŸç§ç¨‹åº¦æ¥è¯´ï¼Œå®ƒç»è¿‡è®­ç»ƒåŽ»æ¨¡æ‹Ÿäººç±»ä¹‹é—´çš„å¯¹è¯ï¼Œæ‰€ä»¥åœ¨æƒ…感表达上会éžå¸¸åƒäººã€‚因此仅仅通过训练,它就会带上一些人类的特质,但它è¿è¡Œæ‰€ä¾èµ–的设备和人类有ç€ä¸åŒçš„å±€é™ï¼Œæ‰€ä»¥å®ƒè¾¾æˆè¿™äº›ç±»äººè¡¨çŽ°çš„æ–¹å¼å¯èƒ½ä¼šå¤§ç›¸å¾„庭。 æž—èµ›ï¼šæˆ‘åŒæ„阿梅森的观点,我认为我们在回答这类问题时确实处境微妙。我们其实没有æ°å½“çš„è¯­è¨€æ¥æè¿°å¤§è¯­è¨€æ¨¡åž‹çš„æ‰€ä½œæ‰€ä¸ºï¼Œè¿™å°±å¥½æ¯”åœ¨ç”Ÿç‰©å­¦é¢†åŸŸï¼Œäººä»¬è¿˜æ²¡å‘现细胞,或是还没弄清楚DNA是什么的时候,åªèƒ½æ‘¸ç´¢ç€å‰è¡Œã€‚ä½†å¦‚ä»Šæˆ‘ä»¬æ­£åœ¨é€æ­¥å¡«è¡¥è¿™ä»½è®¤çŸ¥ç©ºç™½ã€‚ ä½†ä¸Žæ­¤åŒæ—¶ï¼ŒçŽ°åœ¨å·²ç»æœ‰ä¸€äº›æ¡ˆä¾‹èƒ½è®©æˆ‘ä»¬çœ‹æ¸…å…¶ä¸­çš„æœºåˆ¶äº†ï¼Œä½ åŽ»è¯»æˆ‘ä»¬çš„è®ºæ–‡å°±èƒ½çŸ¥é“æ¨¡åž‹æ˜¯å¦‚何计算这两个数字的和的。至于你想称之为类人的行为还是想称之为æ€è€ƒéƒ½å–å†³äºŽä½ è‡ªå·±ï¼Œä½†çœŸæ­£çš„å…³é”®åœ¨äºŽï¼Œè¦æ‰¾åˆ°åˆé€‚的语言和æ°å½“的抽象概念æ¥è°ˆè®ºè¿™äº›æ¨¡åž‹ã€‚ ä½†ä¸Žæ­¤åŒæ—¶ï¼Œç›®å‰è¿™ä¸ªå¡«è¡¥è®¤çŸ¥ç©ºç™½çš„科学工程我们åªå®Œæˆäº†å¤§çº¦20%,剩下的80%还待探索,我们就ä¸å¾—ä¸ä»Žå…¶ä»–é¢†åŸŸå€Ÿç”¨ç±»æ¯”æ¥æè¿°ã€‚è¿™å°±å¼•å‡ºäº†ä¸€ä¸ªé—®é¢˜ï¼Œå“ªç§ç±»æ¯”最贴切?我们应该把模型看作计算机程åºå—?还是应该把它们当æˆä¸€ä¸ªä¸ªå°äººç‰©ï¼Ÿ 从æŸäº›è§’度æ¥è¯´ï¼ŒæŠŠå®ƒä»¬è§†ä½œå°äººç‰©ä¼¼ä¹Žæœ‰ç”¨ã€‚比如,如果我对模型说些刻薄的è¯ï¼Œå®ƒä¼šå击我,这和人类的å应很åƒï¼Œä½†ä»Žå¦ä¸€äº›è§’度看,这ç§å¿ƒç†æ¨¡åž‹å¹¶ä¸æ°å½“。所以我们现在å¡åœ¨è¿™å„¿äº†ï¼Œå¾—弄清楚在什么时候该借用哪ç§è¡¨è¿°æ–¹å¼ã€‚ 主æŒäººï¼šè¿™å°±è¦å¼•出我最åŽä¸€ä¸ªé—®é¢˜ï¼Œé‚£å°±æ˜¯æŽ¥ä¸‹æ¥ä¼šå‘生什么?为了让我们更好地了解这些模型内部å‘生的事情,并æœç€ä½¿å®ƒä»¬æ›´å®‰å…¨çš„使命,接下æ¥éœ€è¦å–得哪些科学进步和生物学进步? 巴特森:还有很多工作è¦åšã€‚我们上一篇论文用了很大篇幅é˜è¿°å½“å‰ç ”ç©¶æ–¹æ³•çš„å±€é™æ€§ï¼ŒåŒæ—¶ä¹Ÿç»™å‡ºäº†æ”¹è¿›çš„路线图,比如当我们试图拆解模型内部的è¿ä½œæœºåˆ¶æ—¶ï¼Œå¯èƒ½åªæ•æ‰åˆ°äº†å…¶ä¸­ç™¾åˆ†ä¹‹å‡ çš„æƒ…况。模型在信æ¯ä¼ é€’æ–¹é¢æœ‰å¾ˆå¤šçŽ¯èŠ‚ï¼Œæˆ‘ä»¬å®Œå…¨æ²¡æœ‰æ•æ‰åˆ°ã€‚ ç›®å‰çš„研究正从我们过去使用的那ç§å°åž‹æ¨¡åž‹é€æ­¥æ‰©å±•,å°åž‹æ¨¡åž‹èƒ½åŠ›ä¸é”™ï¼Œé€Ÿåº¦ä¹Ÿå¿«ï¼Œä½†å¤æ‚程度远ä¸åŠClaude 4系列模型。所以这些都属于技术层é¢çš„æŒ‘战,但我觉得阿梅森和林赛或许会对解决这些技术挑战之åŽçš„ç§‘å­¦å±‚é¢æŒ‘战有自己的è§è§£ã€‚ é˜¿æ¢…æ£®ï¼šæˆ‘æƒ³è¡¥å……ä¸¤ä»¶äº‹ã€‚å…¶ä¸­ä¸€ç‚¹æ˜¯ï¼Œå½“æˆ‘ä»¬é—®æ¨¡åž‹æ˜¯å¦‚ä½•å®ŒæˆæŸä»¶äº‹æ—¶ï¼Œç›®å‰æˆ‘们大概åªèƒ½å›žç­”其中10%åˆ