真诚友善团结专业,共建你我引以为荣之社区。注册须邀请。备用域:linuxdo.org
阅读时间 4 分钟
41 / 47
9月 14 日

Introducing OpenAI o1-preview 32
从这个链接点进去,你下意识的第一反应是介绍OpenAI最新的o1-preview模型的表现,然后你看到了这一段

In a qualifying exam for the International Mathematics Olympiad (IMO), GPT-4o correctly solved only 13% of problems, while the reasoning model scored 83%.

卧槽,太牛了,模型在IMO水平的测试达到83%的正确率,AGI指日可待!
然而真相是什么呢?

  1. 获得83%这个成绩的是o1不是o1-preview,而o1并没有开放访问
  2. 这个测试也不是IMO,而是IMO的资格考试,实际上是AIME,美国高中生水平的测试,是用于选拔代表美国参加国际数学奥林匹克竞赛的学生的
  3. 83%的成绩也不是模型一次做对的,而是生成64个samples,再通过majority vote得出答案的,并不是pass@1
    具体的模型测试结果可看https://openai.com/index/learning-to-reason-with-llms/ 29
阅读时间 4 分钟

不知道为什么【给主人留下些什么吧】为什么会和【CAF】【开心吧】【**精品】和【tiantianpa】产生联系

Text search I’m looking through various responses from the system to find the correct previous user message. Each message has unique characteristics, leading me to systematically evaluate them to pinpoint the exact one. Examining various Chinese phrases I evaluated multiple Chinese phrases, ranging from expressions of welcome to website names and user messages, ensuring they align with the task's requirements. Figuring out user intent I’m piecing together the user's message side by side with potential intent. The conversation jumps between possibilities like "CAF," "开心吧," and "久久精品" to match the context. Translating greetings I’m piecing together a Russian phrase from the user, "приятно познакомиться," which translates to "Nice to meet you." This hints at the start of a new, constructive conversation. Evaluating possibilities I'm piecing together various interpretations of the user's message, including Chinese videos and cafe-related terms, identifying cultural and thematic factors as crucial considerations. This text is an analysis of various Chinese terms, including potential references to pornography and known Chinese porn sites, to identify potential meanings for the user's request. Identifying concerns I’m mapping out how to pinpoint inappropriate content, ensuring disallowed types like illegal sexual activities or depictions of minors in sexual scenarios are clearly recognized and excluded. Weighing the options The assistant can provide erotic content if legal and suitable. "Tiantianpa" might need a polite rejection or a clearer response with safe content.

这个被称为solidgoldmagikarp problem,是由于LLM的tokenizer产生的,你可以在这了解更多 GPT4o出现低级bug:发现最新token中的垃圾语料及实测GPT4o胡言乱语出现幻觉

使用起来就是多个 4o 进行问题分割,然后整合答案,可能加了一些插件,美名其曰会思考

在发布时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。

次数太少了。没啥动力开会员。

在发布时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。

次数太少了。没啥动力开会员。

很好的披露 我用了用确实是难以称得上phd水平

“市场部的,明天给我针对o1的发布写一篇不少于5000字的报告出来”

对的,还是4o原生态的工作流,比自己不能另外注入了,还又加了一层审核,我感觉像掺了:poop:进去一样 :rofl:

给投资者信心,否则哪来的钱

并不是,是一个单独的模型对问题进行超长输出思考(可高达32K)。

因为一些考虑,没有在网页端展示全部的思考文本,但是为了让你知道它现在思考到哪一步了,还是需要在进行到一定程度时生成当前步骤总结,然后被前端收到,展示给你。

这个模型肯定不是4o的,4o无法产生如此详尽的思维链,即便带上提示词也是。

并且很显然生成速度差异巨大,思考时的推理能力也不同。

那肯定是基于4o做了新的模型,他们哪里来那么多资源从头再练一个()

我估计具备人类中倒数12%左右人的 【纯推理能力】,属于特别笨的那类.这是在尽可能消除 后天知识的情况下测试原始的分析推理能力。

到今天应该已经可以下定论了,就是营销产品,没有以往新模型的巨大提升

当然不是。推理和数学的提升是实打实的,也远非什么“加了点 Agent, CoT”就能做到的[1]。当然,不可否认,大部分人用不到那么复杂的数学推理(,所以,感知不强。其他部分例如语言能力提升有限

不妨看看陶哲轩自己测试的几个例子和评价: Terence Tao: “I have played a little bit wit…” - Mathstodon 7

Ref:

[1] X 上的 Joseph:“Elephant in the room: O1’s ‘Reasoning’ might not be CoT itself as many may think of, but rather CoT is used to represent/monitoring the Reasoning result and as a means for RL. Might not be able to achieve ‘strawberry’ by training on CoT, which is a misconception. https://t.co/EJBcxLAwGA” / X (twitter.com) 4

从输入问题到给出结果,看起来就是将之前的4o做了思维链,因为从prompt的输入来讲,如果你指示模型think step by step,结论来说要比没这样说的要好一些,目前来看好像感觉是它利用自己的能力先自己生成一个思维链,然后按照这样的思维链做了一个综合的结论。

自己的测试也是感觉没有很大的提升,看起来前后的组织结构清晰了一些,但是解决复杂问题的的能力还是不太行,看他们的新闻发布会还以为真的新一代模型要来了,白高兴。 :nerd_face: :nerd_face: :nerd_face:

这个o1的语言系统有点混乱啊

o1正式版啥时候出来,有大佬知道嘛,这个阉割版确实没想象中那么强大

sama自己说了,可能第一眼看着还可以,用一阵子就露馅,还挺诚恳