hello 大家好 欢迎来到小能熊的知识视频 我是小能熊的老陈 今天呢是OpenAI双十二 12连发发布会的第三天 今天终于把2024年情人节2月14号发布的 给大家预览的Sora正式发布了 然后不出意外的是 我也没用上 我们来看一下他的这个发布会 我夜里忽然2点就醒了 然后我就知道 那是我的大脑潜意识当中 想看这个发布会
然后我看完之后呢 我也没着急用 等我登录到Sora上面去的时候 因为我是第三方的 用Google账号登录的 他已经限制我登录了 所以整体来讲 我觉得关于Sora的信息铺天盖地 那我今天要谈的什么东西呢 其实我谈的 一切都要回到学习上面来 我想借Sora这件事情 跟大家谈一谈 如何快速的去理解一切的复杂概念 而且我的解决方案非常的简单
只需要三步 我们来给大家看一下 我们今天的这个talk要谈的内容 我们会去谈理解的本质 从认知心理学的原理上来去讲 理解的本质 它到底是什么 然后呢 我们会给出我们的这个解决方案 并且会用大量的demo 实际的操作 要让你看到 原来理解 像Sora里面的这个Diffusion Transformer呀 包括patch等这一系列的概念 其实它是非常简单的
而且也非常容易落地的 OK 那我们就言归正传 谈今天的内容 首先我们来看一看这个Sora 这个东西 就是首先要想理解 像Sora这样的概念的话 其实这里面会涉及到很多 一系列这些概念 我大概整理了一下 大家能看到 这是我今天整理了一下 跟Sora相关的一些笔记 大概会有 20 来个左右的概念 这只是我第一天初步的这些整理 所以我个人会认为 待会我会结合这些实例
跟大家展示一下 我们怎么样通过小能熊的费曼学习法 来去理解这些技术的一些实质 从而能够让我们更好的驾驭好 这些先进的技术 谈到这一块的时候呢 可能很多人会想 我们有必要这样去关注吗 我们只要 知道Sora是个什么东西 然后会用不就行了吗 这里面呢 我给大家讲一个例子吧 前几天呢 我坐滴滴遇到一个司机 然后聊起来之后 他就说他女儿8岁 很会玩快手
在上面剪视频发视频 每天跟小伙伴玩的不亦乐乎 在上面有1万多个关粉丝 然后言谈之中呢 这位大叔他还是挺自豪的 但是怎么说呢 我觉得这里面有一些误解 什么误解呢 其实就是说很多时候父母不懂技术 然后他看到小孩子玩手机 在手机上点点点 然后玩游戏玩的特别的溜 好像就觉得 这个小孩很懂技术 很厉害 以后不得了 很聪明 但是我个人会认为 这个东西本质上是
孩子对技术他有一种非常幼稚的理解 我举个例子 有个东西叫亚当斯科技三定律 是我这么称呼的 它是英国的一个科幻作家 叫 Douglas Adams 他最著名的作品 其实就是银河系漫游指南 很多人应该都看过那里面的小说 或者是作品 前两天 我跟小树一起都读了他的这个小说 同时又重看了一下 当时二零零几年那部电影 我整体会认为 亚当斯的科技三定律特别有意思 怎么说呢
一言以蔽之 其实就是我们对于科技的态度 很多时候呢 就是假如说 这个技术是你在15岁以前所诞生的 接触到的 你会觉得这一切理所当然 它天然就是存在的 就跟太阳一样 它天然就存在了 你不需要去了解 背后它到底跟你有什么关系 它为什么存在 它背后的原理是什么 然后呢 在我们15到35岁之间 我们接触到的技术 我们会觉得它都是改变世界的 然后呢 在我们35岁以后接触到一个新的技术 比如像Sora
ChatGPT 很多人就会觉得这是大逆不道的 这个背后其实是 我们对于科技的态度 而我们都知道 其实现在这个世界 这个社会 在本质上 是被技术所塑造和驱动的 是被科学和技术所驱动的 所以如果 小孩也好 大人也好 对技术抱着一种很幼稚的理解 会玩游戏 会玩抖音 快手什么之类的 但实际上可能打字键盘盲打都不会 然后编程也不会 这个东西真的是懂技术吗
很多时候 当你对技术停留在幼稚的理解的时候 看似是你在使用技术 而或许实际上你才是产品 你才是被技术使用所改造的 我现在还没有用上Sora 因为流量太大 我暂时还没用上 但是我是plus用户 我觉得肯定是可以很快用上的 而且小树也特别期待这个Sora 把她自己的脑子故事 变成这种视觉化的形式 所以我预计到我们以后会 一起来去玩这个东西 后面呢我会跟大家来分享 但是今天呢 我想跟大家谈的是什么呢
就是以Sora为例 我们谈一谈 如何去快速的理解这些 复杂的 抽象的 生僻的 跟生活有一定的距离的 这些科学的概念 所以这里面就涉及到理解这个事 到底什么叫理解 就是大家经常会在 孩子放学了之后家长就会问 今天老师讲的课你听懂了吗 老师讲的你都理解了吗 孩子就会说 都会 都理解了 但是你让他真的去 费曼出来 用自己的话讲出来 你会发现不论大人和小孩
很多时候自己以为的理解 并不是真的理解 所以这个时候 其实就是我们来去探讨一下 理解的本质到底是什么 所以 用一句话来概括 我认为理解的本质 它其实就是 在清晰准确的知识砖块之间 主要是概念 你可以理解为在清晰准确的概念之间 建立丰富有意义的知识关联 然后呢 你通过费曼X3
一遍两遍三遍的费曼 最终能够用自己的话表述出来 能够举实例 能够打比方 能够应用 能够用它来解释世界解决问题 这个时候我们就称之为理解 以Sora为例 你会看到 Sora跟扩散模型 世界模拟 Transformer DiT 建模 再描述 多模态 OpenAI 文生视频这个视频生成模型 特征 latent space 潜在空间 概念图谱 时空补丁 视觉补丁 这一系列的这些统一表征
这些概念之间 你的清晰准确的概念越多 相互之间的关联越有意义越丰富 在这个前提之上 你才能够把这些概念给他费曼出来 所以我们来看一下 我这里面整个 我有5,742个笔记 11,971 个链接 所以你可以理解为 我的这个5,700多个笔记 再加上12,000个链接
它们这个一个一个的概念 概念之间的丰富的联结 它就构成了我的一个概念空间 在这概念空间里面 五六千个概念 以及之间的上万的这个联结 它实际上是我能够 费曼清楚一个概念的前提和基础 OK 所以我觉得应该很具体形象了吧 所以这里面我觉得 很需要去强调的一个事情是什么呢 其实就是说 因为中文
实际上是一种很讲究意合的语言 所以呢这种语言呢 会影响我们整个思维方式吧 所以很多时候呢 我们讲究意和 就不像英语 过于的强调清晰准确 所以我们很多时候 对很多东西的理解呢 就是那种感觉 就是那种感觉 那种意会的东西 大家很多时候会觉得 我们高级的东西是不能言说的 只可意会不可言传 但是实际上 我们基于这个认知原理的话
我们就会知道 就任何一个东西 如果我们不能用语言 清晰准确地表述出来 那其实你可能就并不是真的理解 所以我觉得在现实当中 存在一种很重要的一个现象 就是我们知道一个东西的名字 知道了很久 知道了很多年 但是 我们不一定真的理解这其中的概念 例如ChatGPT 你知道它的名字叫ChatGPT 但是 GPT什么是G 什么是P 什么是T 它整个的how does it work 这个GPT整个的运作的原理是什么
很多时候大家并不会真的去了解 所以Sora也好 GPT也好 很多时候我们如果 不能费曼的话 其实就并不是真正的 理解这个概念 我认为 看起来好像知道名字 也算是一种懂 一种理解 但实际上 它跟真正的理解是天差地别的 他是人与人之间 在认知上面的一种本质的差异 也是人跟人之间 存在重大差异的一个很重要的原因 王小波说过一句话 人跟人之间的差别 比人跟猪之间的差别还要大
这是一个笑话 但是在认知层面上 我觉得还是有他的这个解释力的 然后呢 我们今天的主题是理解复杂的概念 很简单 只需要三步 第一步 就是你要去构建并且积累知识砖块 第二步呢 其实就是 你要在知识砖块之间 建立丰富有意义的关联 第三步就是什么呢 费曼费曼再费曼 今天会用详细的我的笔记的例子 来去给你真实的展示 我相信你看完这个之后
我觉得会 非常的好落地 我们来先谈一下知识砖块这个事 知识砖块跟知识关联这两个东西呢 是我的一种提法 为什么这么提呢 是因为在我的logseq笔记里面 五六千个笔记里面 它只有两种砖块的类型 一种是概念 一种是idea 大概就是一句话吧 所谓的idea 其实就是这个概念之间 形成的有意义的联结 例如费曼是一个概念 诺贝尔物理学奖是个概念
费曼得了诺贝尔物理学奖 这就是一个idea 当然 这也可以说这是一个 事实性的知识 但是呢如果是概念性的这种关联 他就形成了一种思想 例如 概念是费曼学习法的第一公民 这其实就是一种思想 所以大家会看到了 就是说 我之所以这个笔记里面主要就是概念 就是因为在小能熊的费曼学习法当中 概念是第一公民 是最重要的东西 就是我的电脑里面 平时我学习的这个对象 也主要就是概念
然后呢 概念之间的关联就形成了idea 我要demo一个 Sora和统一表征之间的这个关系 我们来看一下 我会交叉使用 logseq和Obsidian 为什么呢 因为Obsidian 它的这个graph的形式比较好看 并且呢它有更灵活的操作性 并且呢它的整个的 渲染的这个效果更强 就是它的性能更强 所以大家会看到 Sora这样的一个概念 Sora这个笔记
我通过2W2H的一个结构 然后呢 这是一个笔记的一个初步的版本 这里面呢 出现了一系列的词 像OpenAI它其实就是一个概念 然后像这个文生视频的模型 或者叫视频生成模型 这也是一个概念 什么叫多模态 什么叫生成式AI 很多时候呢 如果你觉得这个概念 是你以后一再会遇到的 它是一个比较有信息量的 对于你构建知识体系是有用的 你就应该把它 变成一个单独的一个概念的笔记 所以 那我这些概念他是怎么样去得到的呢 我们来举一个例子
我们来看一下 就是我平时的阅读 觉得只要任何值得读的东西 它都要读五六七八遍 我在我的这个七八千个 文章里面 打了Sora标签的 其实就是我过去这10个月里面 积攒的跟Sora有关的这个主题的内容 然后你看 就假如说这篇文章 这篇文章是我自己今天新收集的 大西洋周刊 他关于Sora的一篇文章 其实如果我读的话 我在这里面划线
然后写笔记 最终呢 我会把我的这个阅读的内容 整理成 logseq里面的一系列的概念的笔记 然后你看这个 包括今天Sora的博客文章 和他的这个系统报告 什么之类的东西 甚至我跟ChatGPT聊天的主题 例如你看 我把我今天Sora的system card和tech report 把它放到ChatGPT里面去 跟GPT聊天 聊完之后呢 其实我会把这个里面 整个内容用readwise来剪藏一下
剪藏到这里面之后呢 其实我就可以重读很多很多遍了 然后我也可以从这里面去划线 提取相关的概念笔记了 所以我个人会认为这种主题阅读 它是我们的知识砖块的一个来源 然后呢 利用这个ChatGPT 我就可以建立知识砖块的 第一个版本 所以给大家看一下 这个demo一下就是 这个版本 这个DiT diffusion Transformer 扩散变换器 扩散模型跟Transformer 这两个东西的结合
是这个Sora的一个底层的技术 这个概念 它对于我们理解Sora的运行的原理 是非常重要的 但是很多时候 你没有必要第一步去谷歌 谷歌出来一些东西之后看 看又看不动 然后最终就放弃了 其实很简单的方式是什么呢 很简单的方式 其实就是我让他解释一下 diffusion transformer这个概念 DiT这个概念 它解释完之后呢 我给它复制粘贴过来 它就形成了 我对于这个概念的 一个初步的了解 然后我在读的过程当中
我在迭代这个笔记的过程当中呢 我就会 把这些概念转换成相关的概念笔记 然后这里面呢 因为我的这个模板里面 还涉及了一些重要性的权重 和这个阶段 就是所谓的这个常青笔记嘛 我设计了两个维度的标签体系 一个是从它的生长阶段 种子阶段 萌芽阶段 抽条阶段 开花阶段 常青阶段 这是一个用来描述这个笔记的成熟度的
这样的一套标签体系 重要性呢 我就按照 level 1到 level 5 我又定了另外一个标签体系 这个其实就是我们今天所谈到的 这个概念的重要性 然后呢 在砖块之后建立关联 我给大家举个例子吧 就是其实我们在logseq和Obsidian中 都可以很方便的建立关联 我们先来看 在logseq当中怎么样去建立关联 就举一个刚才的这个例子吧 你看这里面就是扩散模型
然后你看 你整理第一个版本的 这个扩散模型的笔记的时候呢 其实你就可以很方便的 去建立一个新的笔记链接 然后这又是一个新的概念笔记 而且假如数据分布这个东西 在你原来的电脑里面是存在的 然后它就会自动跳到 对应的这个笔记里面去 然后你会发现 这个数据分布 实际上是来自于sam altman的智能宣言 当时我在翻译这篇文章
以及阅读这篇文章的时候 我去做了条笔记 然后现在呢 我又看到数据分布这一个笔记 在几个地方都出现了 包括savage的这个书的章节里面 包括扩散模型里面 包括这个《智能时代宣言》 好几个地方都出现了 所以你会发现 这就是 我们在迭代我们笔记的过程当中 自然而然 就在这个笔记之间去建立了关联了 然后呢 在Obsidian里面迭代其实也是比较方便的
我们举个例子 假如说这个 统一表征 这样的一个概念笔记 这是同样一个markdown文档 我在logseq或者是在 Obsidian里面打开它都是一样的 所以我们举个例子吧 你看 就是在Obsidian里面 写这个笔记的时候 它有一个优势 什么优势呢 其实就是 我们举个例子 我们把这个原来的笔记给它去掉 就当你发现这里面 识别了这里面的一个概念 这概念很重要的时候 然后呢你切换到英文输入法
你输入的时候 然后你光标移动的时候 它就会自动在你的这个 5,000多个笔记里面 去搜索 搜索之后 它就相当于自动补全一样 你只要一回车 它自动就在这个里面 去建立了一个名叫潜在空间的 这样的一个概念 然后再点开 他就会打开 所以基本上就是这样子的 所以呢建立知识关联的时候 它其实是非常非常的方便的
所以它这样的话 更多就是一种思考的过程 在你笔整理笔记的时候 它也是思考的一个过程 刚才我提到了 在Obsidian当中去建立笔记关联的时候 它比较方便的一点 是它能够自动搜索并且补全 而不那么方便的一点呢 就是它的这个tag page的机制 跟logseq不太一样 例如 潜在空间 对 你看 我刚才输这个潜在空间的时候 在logseq里面自动就会跳到latent space这个笔记页面
但是呢 在Obsidian里面 它会自动打开一个新的页面 就是因为logseq跟Obsidian的这个 处理的机制不一样 就是说在logseq里面 我有这么一个 alias 别名的这样的一个属性 所以呢这一个笔记它有好几个名称 不论多少个名称 它都会指向同一个实体 同一个内容 就好像给一个实体 起了好几个变量一样 但是呢 这个在Obsidian里面它是不认的 所以它就会导致会产生一个新的空的
名叫潜在空间的一个笔记 这一点其实是我们注意一下就行了 他可以很好的避免 然后呢到第三步的时候 你发现 我们有知识砖块了 我们有知识关联了 第三步的时候呢 其实就是我们在平时遇到的时候 你会搜索到你的笔记 你重读 你可能在文章当中需要用 或者你要跟别人讲的时候需要用 就根据你在现实生活当中的
一个实际的需求 你就会费曼一遍 或者你每天新建5个笔记 再迭代5个笔记 这过程你也会再费曼一遍 所以你就是通过 费曼费曼再费曼 这个过程当中呢 你在你自己的脑子里面 这些概念就变得更加的清晰了 然后呢在这个笔记当中 这些看得见摸得着的 笔记的关联也就会变得更多了 然后我这边之前 设计了一个demo
是什么呢 就这个 统一表征 所以你看到 跟Sora建立关联的笔记 有这么多 然后呢 跟统一表征建立关联的 有这么多 如果我们在一个新的page里面打开 你会看到 这里面其实是 毫无疑问 这是我从ChatGPT里面copy过来的 一个笔记 但是呢 我经过了我自己的编辑加工 然后呢他就会有比较丰富的关联 然后我们在Obsidian里面 它其实可以打开一个graph view 就是Obsidian里面有两种graph view
一种graph view是全局的graph view 就是你的五六千个笔记 和1万多个关联 另外一个graph view呢 其实就是所谓的local graph view 你就会看到这个统一表针 它跟好几个东西 建立了这个相互的关联 如果你能够把统一表征 跟潜在空间什么关系 跟概念图谱什么关系 跟Sora什么关系 跟时空补丁什么关系 跟token什么关系 跟这个latent space 跟这个Transformer 跟这个video patch分别有什么关系
你能够用自己的话来说出来的话 其实你就非常的理解这一概念了 我觉得理解这些概念 理解背后的why 对于我们以后的使用 它是非常重要的 说到底 其实就是说如果我们思维比较简单 思考都比较浅层 那工具再先进 我们真的能够真正驾驭吗 然后 还要demo一个东西 是什么呢 demo就是 在记笔记的时候有一个特别方便的一点
就是说 我在这里面打一个card的这个tag 它就会自动变成了一个记忆卡片 所以你会看到我在这里面 它就出现了 然后我就在想 这个潜在空间 可以帮助我们学习隐藏特征 这是怎么回事呢 我能举个例子吗 我能给他解释清楚吗 然后你会发现 这不就是我们这里面 记的笔记之一嘛 所以
大家会看到我今天要讲的idea 实际上是非常非常简单的 说实在的就是我觉得太简单了 我都有点不好意思 但是呢我想跟大家说的是 根据我的观察 虽然我这个方法是极其的简单 就是我们要积攒我们的知识砖块 我们在知识砖块之间建立丰富的关联 然后呢我们 费曼费曼再费曼 但是我想说的是 在现实生活当中 就是大家对复杂的概念缺乏理解 或者是很长的时间
都很难深入的理解和掌握一些复杂的概念 最终导致脑子里面缺乏概念 概念混淆 然后呢 最终的问题就是缺什么就想去找补什么 就是因为你特别的缺乏清晰准确的概念 概念混淆 所以你老容易被那些生造概念的人 被那些耍大词的人 什么认知折叠这一类的东西所吸引和迷惑 所以到最后 如果我们只是知道很多东西的名字
但是我们并不真的理解它 并不理解概念的话 那实际上我们的头脑会最终一团浆糊 我们就会不可避免的 成为一个思维迟钝 认知上很处于弱势的 这样的一种状态 也就是2024年 牛津词典 它提炼的一个年度关键词叫什么 叫 brain rot 叫坏脑症 什么叫坏脑症 它指的其实就是 当我们在互联网上看了太多 很trivial
很琐碎的 然后呢低质量的 没啥营养的 这些的信息 最终导致我们的思维状态 导致我们的认知水平 导致我们的智识水平 停留在那样一种状态 所谓的brain rot那么一种状态 所以坏脑症 我觉得坏脑坏在什么地方 坏就坏在 我们缺乏足够多清晰准确的理解 缺乏对事物有深刻的本质的认识 所以 今天整个给大家来去demo的东西呢
其实我还想跟大家 做一个很简单的一个总结 其实就是 毫无疑问 在这整个过程当中 你会看到logseq对于积累概念 以及在概念之间建立关联 它是多么的符合认知原理 而且我觉得他的认知负荷 对于一个小孩来讲 他都是非常非常容易的 总之 小树去年看到我在使用logseq的时候 她就特别的来劲 让我给她安装了之后 她就自己用 她都不让我教她 为什么 因为她自己就会玩
然后她记了很多 一直到现在还在记 用它来去记C++的笔记 记Python的笔记 所以我个人会认为 它是又符合认知原理 然后呢它的这个认知负荷又极其的低 哪怕是一个8岁的小孩 都能用的很开心 然后呢在用的过程当中呢 它又能够不断的给你去建立正反馈 例如如果你能够把这个像Sora这样的 一种复杂的概念 讲的很清楚 那是一种 非常让人心情愉快的一种行为 并且呢 当你能够看到你的这个学习卓有成效
进一步有进一步的欢喜 每积攒一个概念 你就变得更聪明一丢丢 这是一个多么让人快乐的一件事情 然后另外呢 我想跟大家强调一点 就是说我的主张是 logseq跟Obsidian来去搭配使用 因为这两个工具本质上是一样的 唯独的区别其实就是logseq 它整个的笔记的结构 都是以一个一个的节点 来去组织起来的 它是一种树状的一个结构 而Obsidian呢 它实际上都是 在里面是写文章的 所以我基本上不用Obsidian来去写
但是呢 我会用Obsidian比较丰富的插件的生态 以及它比较高性能的客户端 来去做一个另外一个展示 所以这两个相互搭配 它就能够起到1+1大于2 1+1=11的这样的一种效果 好 这个呢其实就是 我今天想要跟大家谈的这个主题 所以我没有具体讲Sora 因为我现在还没有用上 但是后面 我觉得随着我使用经验的积累 我们大家还是可以进一步探讨 怎么样去用Sora 把自己的故事进行一种非常生动的
视觉化的来表达 但现在呢 我们其实就是借Sora这么一个主题 来去跟你探讨 如何快速的去理解一切复杂的概念 非常简单 只需要三步 非常感谢你的时间 谢谢