热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Aaron Levie
CEO @box - 利用 AI 释放内容的力量
现在错过人工智能代理全部潜力的最简单方法就是不充分利用它们。大多数时候,人们只是没有将它们推得更远,因此可能只从潜力的一小部分中受益。
当你与初创公司交谈并了解他们的新工作流程时,真是令人震惊,他们比几年前用相同资源能完成的工作多得多。
这对所有了解情况的人来说都是一个巨大的不对称。那些优先采用人工智能的团队和公司将始终领先于其他公司,因为他们会认识到如何进一步推动模型和代理,而这些学习将会积累。
对于其他人来说,将会有大量未被开发的能力就静静地在那里。

Aidan McLaughlin8月18日 00:47
简单来说,我能给出的最佳 vibecoding 建议就是要更有雄心。
如果你请求一个 10 分钟的 PR,问问自己,这个模型能处理 3 小时的 PR 吗?
答案是,往往比你想象的要多:可以。
105.6K
几乎每项研究都表明,使用人工智能的医生表现优于不使用的医生。现在,人工智能在医学执照考试中取得了完美的分数。你将会期待未来你去的每一个专业服务提供者都将使用人工智能,否则你将不信任他们的建议。

sarah guo // conviction8月16日 03:56
超级智能的时代已经到来。
没想到医疗领域会是第一个。
@EvidenceOpen团队在美国医学执照考试中获得了完美的100%的成绩,真是令人惊叹的工作。

255.88K
市场规模之所以会比我们意识到的更大,有一个微妙的原因是,有许多用例需要同时运行多个代理来解决同一个问题,这非常有价值。
在大多数知识工作中,这在过去几乎是不可能的。因为在同一个问题上投入更多人力成本过高。但由于我们大幅降低了部署智能的成本,你可以承担更多的冗余,并从更多角度考虑问题。
我们已经在多个领域看到了这些例子。人们在相同的代码更改上使用AI代码审查代理,以提供分析中的细微差别。对于安全代理审查代码也是如此,额外的覆盖带来了更多的价值。在深度研究任务中,通常有多个提示并行运行以比较不同的方法是非常有用的。
我们可以预期,这种情况将在许多其他领域出现,在这些领域中,多个不同的观点为工作流程提供了增量价值,比如法律工作、医疗保健、财务分析、科学研究、产品构思、市场内容创作等。
这就是为什么很难估计这些市场的完整总可寻址市场(TAM)。如果你认为代理仅仅是1:1地近似我们今天的工作方式,那么很容易忽视我们将在工作流程中使用代理的所有方式。这就是为什么这些市场在未来没有自然上限。
151.44K
AI代理在软件货币化方面带来了真正的变革。
传统上,软件的定价通常限制在每个用户每月约10-50美元左右。虽然有一些特例的垂直软件,但一般来说,价格大致上都有这个上限。
而AI代理则基本上没有上限,因为在工作流程中,使用AI代理的方式没有真正的上限。
我们已经在软件编码代理中看到了这一点,有些人每月支付数千美元。这完全是合理的:如果用户使用AI编码代理的生产力提高了2到3倍,公司在代理上的支出占相应薪资的10%也不会感到吃惊。
但这种情况也开始出现在一般的知识工作领域,如法律分析、审查医疗报告、处理贷款文件等。我们应该在每个工作类别中都期待这种动态。
现在,随着模型的改进,同类产品的定价将会下降。但随着AI代理能够执行更复杂的任务,并且在工作流程中并行运行越来越多的代理,企业将会部署更多这样的代理。未来将是疯狂的时代。

Gergely Orosz8月14日 14:58
我们已经迅速从“我不确定是否想为另一个 AI 编码工具支付每月 20 美元,因为我已经为一个支付 20 美元/月”转变为“我的每月 200 美元的订阅总是超出限制——救命!!”
积极使用 LLM 的开发者们很快就会轻松支付每月 1,000 美元以上的费用…
99.79K
除了少数几个类别,AI领域的大部分空间仍然是广阔的。这种情况不会永远持续下去,因为数据和工作流程的护城河将开始建立,但目前确实是暂时如此。
在过去的一年里,AI取得了巨大的进展,模型解决了许多大多数初创公司之前必须围绕构建的问题。而且,今天你能用AI代理做的事情比两年前强大了大约100倍。
这也是为什么构建具有正确抽象层的架构以利用这些更新至关重要。

Olivia Moore8月14日 09:26
我有时听到潜在的创始人说他们对人工智能来说“太晚了”
但由于模型发展得如此迅速,在许多类别/产品类型中,晚些时候开始反而是有优势的
你不必花时间(和金钱)去构建将来会以API形式提供的基础设施/模型
68.25K
人工智能将随着时间的推移模糊许多功能之间的界限,因为你现在可以开始在堆栈的更高或更低层次上做事情,或者扩展到其他相邻的功能。一个非常明显的领域是,产品经理几乎总是应该展示功能原型。

Kaz Nejatian8月13日 21:57
我们将在 @Shopify 的所有产品经理面试中增加一个编码环节。
我们将从 APM 面试开始。我们希望候选人在案例面试中构建他们建议的产品原型。
产品经理不构建原型是没有借口的。
66.75K
在Box,我们花了很多时间测试Box AI与新模型在非结构化数据上的表现,以了解它们在实际知识工作领域的表现。
从基准测试中我们看到,GPT-5在推理、数学、逻辑、编码和其他工作领域相比于GPT-4.1有了显著的能力提升。以下是这些改进在现实世界中应用的一些例子:
*GPT 5更好地上下文化信息。当进行数据提取时,比如在没有货币标签但有伦敦地址的发票上提取最终的美元金额,GPT 5正确地回应需要从美元到英镑的汇率。相比之下,GPT 4.1看到最终账单后直接返回,错误地假设了货币。
* GPT-5提供更好的多模态分析。对于一家上市公司的年度报告,GPT-5被要求从显示公司股权组成变化的图像中的表格中隔离一个单元格。表格顶部明确说明所有股份金额以千为单位,而GPT-5清楚地说明了这一转换,而GPT-4.1则没有,因表格上写着股票而图例上写着股份而感到困惑。
* GPT-5在高水平的提示和数据复杂性下表现更好。当在简历上提取所有工作开始日期、职位名称和雇主名称时,GPT-5能够提取出每一条数据,而GPT-4.1似乎感到不堪重负,未能提取出相同的字段,原因在于提示的大小和文档的复杂性。
* GPT-5在回答时更加清晰和明确。在一份涉及6种不同服务的外包协议中,当被问及“合同中的5种具体服务”时,GPT-5会返回前5种,并询问第六种未被提及是否是故意的。相比之下,GPT-4.1仅返回前5种,没有任何进一步的说明,这可能会导致用户的后续困惑。
* GPT-5在复杂领域的数据解释能力更强。对于流式细胞术图表,通常用于免疫学,GPT-5正确识别出高比例的死亡细胞,并给出了可能导致这种情况的合理根本原因,而GPT-4.1则给出了最少的推理,需要进一步确认才能从原始数据中得出任何猜测。
* GPT-5更能识别代码中的不一致性。当被要求识别给定的python代码文件中的问题时,虽然GPT-5和4.1都能识别导致故障的真实错误,但只有GPT-5能够推断出更微妙的问题,比如在程序上下文中打印不正确的变量。
这些在数学、推理、逻辑和长上下文窗口中响应质量的改进对最终用户在日常工作中非常有帮助,但在长时间运行的AI代理中,尤其是在每一步都没有人类参与验证信息时,这些改进将更加明显。
看到这些改进在最新一批AI模型中不断涌现真是太棒了,因为这将使AI代理能够在越来越多的关键任务工作领域中使用。
78.14K
显然,我们现在正处于一个人工智能模型在数学、推理、逻辑、工具调用和各种特定领域任务的能力不断提升的轨迹上,随着更多训练数据的生成,这些能力将会变得更好。
虽然关于这些进步在消费者日常使用案例中会表现出多大变化的争论将会存在,但它们*将*在许多知识工作类别中产生重大影响。它们将逐步解锁医疗、法律、金融服务、生命科学等领域的新用例,在这些领域,模型可以可靠地执行越来越关键的任务。
在最近与亚历克斯·坎特罗维茨的播客中,达里奥·阿莫代伊提出了一个很好的框架,即如果你提高一个人工智能模型的能力,使其从拥有生物化学本科文凭提升到拥有生物化学研究生学位,只有一小部分消费者会注意到这种影响,但像辉瑞这样的公司的企业用例将会因此显著增加。
我们应该开始预见到,我们现在正处于人工智能的时代。那么,这在现实世界中如何开始显现呢?它将通过人工智能代理追求应用用例而显现。用于编码、法律工作、医疗记录、数据提取、保险索赔处理、渗透测试等的人工智能代理。
现在的机会是为具有深刻理解的垂直领域和领域构建人工智能代理。这就是上下文工程的影响、对工作流程的深刻理解、与企业数据的连接以及专门用户界面的重要性(这些界面允许用户部署、管理和协调这些代理)开始变得非常重要的地方。
这也意味着建立与特定垂直或领域相一致的分发渠道。这可能意味着某种形式的前向部署工程,不仅帮助客户实施代理,还能快速了解代理优化的工作流程,并将其反馈到核心平台中。
最终,这些市场将由能够最好地将今天的企业流程(这些流程通常混乱且未设计为自动化)与代理集成到这些工作流程中的世界桥接的参与者所赢得。这就是我们现在所处的人工智能时代。
78.03K
我们离AI能力的最佳稳定点还远着呢,但讽刺的是,由于技术进步的速度太快,很多AI的商业应用案例都被搁置了。这就是为什么未来-proof架构如此重要。

Ethan Mollick8月11日 18:39
当人工智能发展趋于稳定时(目前还没有迹象表明这种情况正在发生),它实际上可能会加速人工智能融入我们的生活,因为这样就更容易弄清楚需要哪些产品和服务来补充人工智能。目前功能变化太快
4.12K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可