击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞


前段时间,初出茅庐的猎鹰(Falcon)在LLM排行榜碾压LLaMA,在整个社区激起千层浪。

但是,猎鹰真的比LLaMA好吗?

简短回答:可能不是。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

符尧团队对模型做了更深入的测评:

「我们在MMLU上复现了LLaMA 65B的评估,得到了61.4的分数,接近官方分数(63.4),远高于其在Open LLM Leaderboard上的分数(48.8),而且明显高于猎鹰(52.7)。」

没有花哨的提示工程,没有花哨的解码,一切都是默认设置。

目前,Github上已经公开了代码和测试方法。

对于猎鹰超越LLaMA存疑,LeCun表态,测试脚本的问题...

LLaMA真·实力

目前在OpenLLM排行榜上,Falcon位列第一,超过了LLaMA,得到了包括Thomas Wolf在内的研究人员的力荐。

然而,有些人对此表示疑虑。

先是一位网友质疑,LLaMA这些数字从哪来,看起来与论文数字不一致...

随后,OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数明显低于官方(48.8 v.s. 63.4)表示关注。

并发文,到目前为止,我一直避免在推特上发表关于猎鹰的文章,因为这一点,不确定。

为了弄清楚这个问题,符尧和团队成员决定对LLaMA 65B进行一次公开的测试,结果得到61.4分。

在测试中,研究者没有使用任何特殊机制,LLaMA 65B就能拿到这个分数。

这一结果恰恰证明了,如果想要模型实现接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根据就是,近来符尧团队发表的一篇Chain-of-Thought Hub论文的发现。

当然,符尧表示,他们这一测评并非想要引起LLaMA和Falcon之间的争端,毕竟这些都是伟大的开源模型,都为这个领域做出了重大的贡献!

另外,Falcon还有更加方便的使用许可,这也让它有很大的发展潜力。

对于这一最新测评,网友BlancheMinerva指出,公平的比较应该在默认设置下运行猎鹰(Falcon)在MMLU上。

对此,符尧称这是正确的,并正进行这项工作,预计在一天后可以得到结果。

不管最终的结果怎样,要知道GPT-4这座山峰才是开源社区真正想要追求的目标。

OpenLLM排行榜问题

来自Meta的研究人员称赞,符尧很好地再现了LLaMa的结果,并指出了OpenLLM排行榜的问题。

与此同时,他还分享了关于OpenLLM排行榜的一些问题。

首先,MMLU的结果:LLaMa 65B MMLU结果在排行榜上是15分,但对7B模型来说是一样的。13B、30B模型也存在较小的性能差距。

OpenLLM真的需要在公布哪个模型是最好的之前看看这个。

基准:这些基准是如何选择的?

ARC 25 shot和Hellaswag 10 shot似乎与LLM并不特别相关。如果能在其中加入一些生成式基准就更好了。虽然生成式基准有其局限性,但它们仍然是有用的。

单一平均分:将结果减少到单一分数总是很吸引人的,平均分是最容易的。

但在这种情况下,4个基准的平均值真的有用吗?在MMLU上获得1分和在HellaSwag上获得1分是一样的吗?

在LLM快速迭代的世界里,开发这样一个排行榜肯定有一定的价值。

还有来自谷歌研究人员Lucas Beyer也发表了自己的观点,

疯狂的是,NLP研究人员对同一个基准有不同的理解,因此导致了完全不同的结果。同时,每当我的同事实现一个指标时,我都会立即问他们是否真的检查将官方代码的完美重现,如果没有,就放弃他们的结果。

另外,他还表示,据我所知,无论模型如何,它实际上都不会重现原始基准测试的结果。

网友附和道,这就是LLM基准的现实...

Falcon——开源、可商用、性能强

说到Falcon,其实值得我们再好好回顾一下。

按LeCun的说法,大模型时代,开源最重要。

而在Meta的LLaMA代码遭泄之后,各路开发者都开始跃跃欲试。

Falcon正是由阿联酋阿布扎比的技术创新研究所(TII)开发的一支奇兵。

刚发布时从性能上看,Falcon比LLaMA的表现更好。

目前,「Falcon」有三个版本——1B、7B和40B。

TII表示,Falcon迄今为止最强大的开源语言模型。其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。

不过,此前TII曾表示,别看咱Falcon规模虽小,性能却很能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方式,并让研究人员和创业者能够以此提出最具创新性的使用案例。

FalconLM的两个版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA则位于第三。

而前文所讲的有关排行榜的问题也正是这个。

尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员曾透露,「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是,LLM对训练数据的质量非常敏感,这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是,在过滤和去重的基础上从网络中提取高质量的内容。

目前,TII已经发布了精炼的网络数据集,这是一个经过精心过滤和去重的数据集。实践证明,非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手,甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

此外,Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后,第二个真正开源的模型。

另外,还有一点非常重要——Falcon是目前唯一的可以免费商用的开源模型。

在早期,TII要求,商业用途使用Falcon,如果产生了超过100万美元以上的可归因收入,将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止,所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示,现在暂时不需要通过这个模型挣钱。

而且,TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案,他们还会提供更多的「训练算力支持」,或者提供进一步的商业化机会。

这简直就是在说:只要项目好,模型免费用!算力管够!钱不够我们还能给你凑!

对于初创企业来说,这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

根据开发团队称,FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。

(研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)

此外,Falcon的训练成本相对来说更加可控。

TII称,与GPT-3相比,Falcon在只使用75%的训练计算预算的情况下,就实现了显著的性能提升。

而且在推断(Inference)时只需要只需要20%的计算时间,成功实现了计算资源的高效利用。


# 开源  # 瑞典语  # 阿布扎比  # 他还  # 这就是  # 出了  # 中东  # 的是  # 榜上  # 这一  # Token  # llama  # gpt  # gpt-4  # gpt-3.5  # gpt-3  # nlp  # github  # 并发 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误  生成式AI革新客户服务:提升效率与个性化体验  教你用AI一键为代码添加注释,小白也能读懂复杂程序  恐怖游戏惊魂:虚拟主播带你逃离病娇女孩的魔爪  Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday”  GTA Online: 2025最新无限隐形套装防消失技巧  即梦ai能否生成3D建模参考图_即梦ai3D参考图生成与视角设置【方法】  唐库AI拆书工具如何提取核心观点_唐库AI拆书工具观点提取与标注方法【攻略】  AI交易机器人:TradingView上无需代码即可构建AI交易机器人指南  途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  LALAL.AI教程:音视频人声分离、降噪终极指南  使用Go语言构建图像识别系统:完整指南  零基础玩转千问AI,轻松实现月入万元的最新方法!  AI助手高效获取谷歌评论:提升本地商家曝光率的终极指南  eBookWriter AI:无需写作也能创作专业电子书  AI加持:2025年最佳人工智能潜在客户生成工具  Midjourney怎样生成网页_Midjourney生成网页教程【方法】  2025年43英寸电视选购指南:最佳品牌与型号推荐  AI赋能保险销售:提升邮件营销效果的终极指南  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  怎么用AI帮你为初创公司进行市场定位分析?  如何通过文心一言进行地道的文言文翻译  1-11月30万元以上插电混动车型销量榜:问界双车前二  ChatGPT 处理非结构化数据并转换为 JSON 格式  Sim.AI教程:构建智能客户支持助手  挖掘用户数据:洞察与策略,提升播客全球影响力  10平米房间设计终极挑战:人类 vs AI,DIY极简主义胜出!  ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】  稿定设计AI抠图怎么修复瑕疵_稿定设计AI瑕疵修复与手动微调【步骤】  ChatGPT 4.0赋能室内设计:20+实用技巧提升工作效率  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  Motion:革新项目管理的智能日历解决方案  使用双端队列(deque)解决字母字符串问题  千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】  打造AI Jarvis:停止功能、联网、中文与人脸集成  PandaDoc vs. SignEasy: 2025 eSignature 平台终极对比  使用ChatGPT快速生成专辑封面:AI艺术创作指南  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  即梦ai能否生成国风插画_即梦ai国风元素调用与文化符号添加【技巧】  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  SEO优化利器:利用AI提升标签的关键词密度  如何用AI生成正则表达式?再也不怕复杂的文本匹配  AI电子书创作革命:AieBookSuite如何颠覆出版行业  2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新  播客成功的秘诀:打造高转化率的内容和社区  Mermaid Playground: AI驱动的图表秒速创建指南  告别噪音:使用Adobe Podcast提升录音质量  百度输入法ai模式怎么关 百度输入法恢复普通模式  批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】 

 2023-06-10

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.