Hey 👋, I'm Simon AKing! 
- 👨💻 Front | Back | Left | Right | End Engineer
- ✨ Indie Hacker | Building What People Want
- 🤖 AI Enthusiast | Exploring AI-powered Products
- 👨💻 Front | Back | Left | Right | End Engineer
- ✨ Indie Hacker | Building What People Want
- 🤖 AI Enthusiast | Exploring AI-powered Products
分享下最近的一个行业观察:
1. 国内 ai 模型厂商 minmax、kimi 最近有一些新动态:
1. minmax 推出了 通用 agent 产品 https://agent.minimax.io/share/281535490056355
2. kimi 推出了 researcher 模型与产品 https://www.163.com/dy/article/K30342N605566Y1D.html
2. 国外 claude 今天则进一步 artifacts 部署、发布等端到端流程 内置
分享下最近 [Andrej](https://x.com/karpathy) 在 YC 上的一次分享,主题是 AI 时代下软件演进的趋势,其中有一些深刻的洞察:
该分享原内容:[视频](https://youtu.be/LCEmiRjPEtQ)、[PPT](https://docs.google.com/presentation/d/1sZqMAoIJDxz79cbC5ap5v9jknYH4Aa9cFFaWL8Rids4/edit?usp=sharing)、[中文版](https://docs.qq.com/document/DVmpCdVRSbFFycmhr)
1. 软件演进的三个时代:从传统的代码编程到 训练神经网络 再到自然语言编程,突然间 每个人都是程序员。
> 对应了现在 vibe coding 兴起,ai coding 产品风靡(该概念也是 Andrej 提出)
分享一期 最近被疯狂推荐的播客 - [102。 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”](https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f?s=eyJ1IjoiNjU1ZDhiY2NlZGNlNjcxMDRhNDUyODcxIn0%3D)([文字版](https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw))。
该播客是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,其中张祥雨阐述了他近些年对 LLMs、MultiModal 领域的一些思考,我和 claude 总结了下收获比较大的点,欢迎讨论:
1. 自监督学习 在 NLP 与 CV 领域的差异
NLP 领域中 自监督训练 配合 decoder-only 架构取得了惊人成功。相比之下,CV 领域试图复制这种成功的尝试却遇到了瓶颈。无论是对比学习还是掩码图像建模(MIM),都没能展现出类似的 scaling 效果。这背后可能的深层原因:
最近刷到了一张 agent 记忆的分类图,简单概括下:
短期记忆:记住刚刚说过的话
比如你问"我女儿多大了",它记得你刚说过是5岁,就能接着聊"哦,那该上幼儿园了"
长期记忆:存储重要信息、用户偏好
今天刷到了 google 预热的 [gemini-diffusion](https://deepmind.google/models/gemini-diffusion/),进一步了解了下 llm 结合 diffusion 方向的一些工作,分享给大家:
1. 性能优势:结合 diffusion 性能上会有代际差异:常见的 decode-only 模型都是自回归的线性解码 O(n^2),而 diffusion 可以一次性生成整个序列再 T 步去噪完成(一个可以操作整个序列),所以复杂度降到了 O(Tn)。今年 2月 [Inception Labs](https://www.inceptionlabs.ai/news) 发布的 基于 diffusion 的 Mercury Coder 已达到了 1109(tokens/sec),而常规的模型只有 30 左右(比如 doubao)
2. 目标更新:不再是预测下一个 token 概率,而是通过加噪再减噪 逼近预期的答案,会缓解 常规 LLMs 没有逆向推理(一步错步步错)的效果问题,因为每次减噪都会处理整个序列,上下文相关性更强
最近的一个 learning,陪伴是精神层面,高频且会一直存在的赛道,但 AI 陪伴还有很长的路要走:
1. LLMs 的对话式形态不适合情感陪伴
2. Context 目前没有一个很强共识的技术(graphit 可能是),导致容易丢失 Memory,影响不亚于出轨,相反共同的 Context 越多,羁绊也会越强
3. 虚拟朋友需要 proactive,而不是被动回复