被视为"万能助手"的AI智能体,在真正的专业领域究竟表现如何?
创始人
2026-03-19 02:27:39

这项由Humanlaya、BIGAI、xbench和M-A-P等机构联合开展的研究发表于2026年3月,论文编号为arXiv:2603.07980v1,有兴趣深入了解的读者可以通过这个编号查询完整论文。

当你在办公室里看到同事熟练地使用ChatGPT写邮件、整理资料时,你可能会想:这些AI助手是不是已经可以胜任真正的专业工作了?比如帮律师分析案件、协助医生制定治疗方案,或者代替金融分析师做投资决策?这个问题不仅普通人好奇,专业人士更是迫切想知道答案。

现在,一个国际研究团队设计了一个史无前例的"大考试"来回答这个问题。他们创造了一个名为"百万美元基准"的评测体系,专门测试AI智能体在真正的专业工作中的表现。之所以叫"百万美元",是因为如果让真正的专业人士来完成这些任务,需要支付的人工费用将超过100万美元。

这个测试与我们平常见到的AI考试完全不同。过去的AI测试大多像是标准化考试,有标准答案,就像让AI做数学题或者回答历史问题。而这次的测试更像是真正的职场考核,需要AI在复杂的现实场景中做出专业判断。研究团队邀请了法律、金融、医疗、自然科学和工业技术五个领域的资深专家,精心设计了400个高难度的专业任务。

这些任务的复杂程度远超想象。以法律领域为例,AI不仅要理解复杂的法条,还要分析具体案例,考虑不同司法管辖区的法律差异,甚至要处理法律条文之间的冲突。在医疗领域,AI需要根据患者症状制定治疗方案,考虑药物相互作用,还要符合最新的医疗指南。在金融领域,AI要分析市场趋势,评估投资风险,制定符合监管要求的投资策略。

更有趣的是,研究团队发现不同AI系统就像是性格迥异的员工。有的AI擅长搜索信息,就像是拥有超强记忆力的图书管理员,能快速找到需要的资料。有的AI善于逻辑推理,像是严谨的分析师,能够条理清晰地分析问题。还有的AI在表达能力上表现突出,能够将复杂的专业内容解释得清晰易懂。

测试结果让人既惊喜又清醒。表现最好的AI系统(Claude-Opus-4.6)在配备网络搜索功能时,综合得分达到了63%,相当于一个刚入职的初级专业人员的水平。这个成绩在某些特定任务上确实令人印象深刻,但距离资深专家的标准仍有明显差距。

特别有意思的发现是,给AI配备搜索工具就像给工人提供更好的工具箱,确实能显著提升工作效果,但前提是这个"工人"本身要有足够的技能。对于能力较强的AI系统,搜索功能如虎添翼,能够获取最新信息并做出更准确的判断。但对于能力较弱的AI,搜索功能有时反而会带来干扰,就像给新手司机一辆功能复杂的豪华轿车,可能反而增加操作难度。

一、AI智能体的真实能力水平

要理解AI智能体在专业领域的真实表现,我们可以把这次测试想象成一场严格的职场技能考核。研究团队精心设计了一套评分体系,就像是企业人力资源部门制定的员工能力评估标准,不仅看结果对错,更重要的是看工作过程是否专业、逻辑是否清晰、是否符合行业规范。

在这套评估体系中,每个任务都有多个评分维度。事实准确性考查AI是否能准确获取和使用专业信息,就像检查会计师的计算是否正确。逻辑连贯性评估AI的推理过程是否符合专业标准,类似于评价医生的诊断思路是否合理。实用可行性则考察AI提出的方案是否能在现实中实施,就像工程师的设计图是否真正可以建造出来。专业合规性确保AI的建议符合行业规范和法律要求,这对于法律和医疗领域尤其重要。

测试结果显示出明显的阶梯分布。表现最优秀的AI系统(如Claude-Opus-4.6)就像是一个聪明但经验不足的实习生,在有经验丰富的导师指导下能够完成不少有价值的工作。这些顶级AI在配备搜索功能后,专家评分达到63%,通过率(达到专业合格线的任务比例)为43.5%。这个成绩意味着它们已经具备了处理某些专业任务的基本能力,但仍需要人类专家的监督和指导。

中等水平的AI系统表现参差不齐,就像是技能各异的普通员工。有些在特定领域表现不错,比如Qwen3.5-Plus在结构化任务中表现稳定,但在需要深度推理的复杂问题上就显得力不从心。这类AI适合处理一些标准化程度较高的工作,但很难独当一面处理复杂的专业决策。

令人意外的是,一些专门为深度研究设计的AI系统(如深度研究智能体)虽然在单个问题上能够进行更深入的分析,但在这种综合性专业评估中并没有显著优势。这就像是一个博士生虽然在自己的研究领域非常精通,但在处理跨学科的实际业务问题时未必比经验丰富的实务工作者更出色。

不同领域的测试结果也很有启发性。在医疗和法律等需要严格遵循专业规范的领域,AI的表现相对较好,因为这些领域有明确的指导原则和标准程序。而在需要更多创新思维和灵活判断的金融分析领域,AI的表现就显得中规中矩。自然科学领域的结果特别有趣,中英文测试的成绩相当接近,说明科学知识的普遍性让语言差异的影响相对较小。

更重要的发现是AI系统的"偏科"现象非常明显。某个AI可能在信息检索方面表现优异,能够快速找到相关的法规条文或医学文献,但在需要综合判断的复杂推理上就显得吃力。另一个AI可能逻辑推理能力很强,但在理解具体行业规范方面存在不足。这种现象告诉我们,目前的AI更适合作为专业人士的助手,发挥各自的长处,而不是期望它们成为全能的专业工作者。

二、网络搜索对AI专业能力的影响

当我们为AI配备网络搜索功能时,就像是给律师配备了一个超级法律数据库,给医生提供了最新的医学文献检索系统。这种能力的提升效果令人印象深刻,但也充满了意想不到的复杂性。

对于能力较强的AI系统,搜索功能简直就是锦上添花。Claude-Opus-4.6配备搜索功能后,专家评分从55%提升到63%,通过率从36.5%增长到43.5%。这个提升相当可观,就像是一个本来就很优秀的研究员获得了更好的研究工具,能够获取最新的行业动态、法规变化和技术进展,做出更准确和及时的专业判断。

然而,搜索功能对不同AI的影响差别巨大。一些AI系统在获得搜索能力后表现反而下降了,这个现象特别值得关注。比如Hunyuan-2.0-Thinking系统在全球测试中,配备搜索功能后专家评分从34.7%下降到30.2%,通过率从8.5%降到3.0%。这就像是给一个还没掌握基本驾驶技能的新手司机一辆配备了复杂导航系统的汽车,反而增加了操作难度。

这种"搜索悖论"揭示了一个重要问题:搜索能力不仅仅是获取信息的工具,更是对AI信息处理和判断能力的考验。当搜索返回大量相关信息时,AI需要具备筛选、评估和整合这些信息的能力。对于判断能力较弱的AI,过多的信息反而会造成混淆,就像是信息过载让它们无法抓住重点。

在不同类型的专业任务中,搜索功能的效果也截然不同。在需要获取最新法规或市场数据的任务中,搜索功能发挥了巨大作用,帮助AI获得了时效性很强的专业信息。但在主要依靠逻辑推理的任务中,搜索有时会引入无关信息,干扰AI的思考过程。

特别有意思的是,研究团队发现不同搜索平台和工具对AI的影响也不相同。官方平台提供的搜索功能通常比第三方工具表现更好,这可能是因为官方平台对搜索结果有更好的质量控制和相关性筛选。这就像是使用专业图书馆的检索系统比在网上随意搜索更可靠。

搜索功能还暴露了AI在处理冲突信息方面的弱点。当搜索返回的不同来源提供了矛盾的信息时,优秀的AI系统能够识别这种冲突并寻找权威来源进行验证,而较弱的AI系统往往会被这种冲突所困扰,无法做出准确判断。这个现象提醒我们,训练AI不仅要教会它们如何获取信息,更重要的是要培养它们评估信息可靠性的能力。

从实际应用的角度来看,这个发现对于AI产品的设计有重要启示。不是所有的AI系统都适合配备强大的搜索功能,特别是那些还在发展初期的AI。对于这些系统,可能需要先提供有限和筛选过的信息源,就像是为学生提供精选的参考书籍而不是让他们直接面对整个图书馆。

三、不同专业领域的AI表现差异

在五个主要专业领域中,AI智能体的表现呈现出有趣的差异化模式,就像是同一个学生在不同科目上的成绩单,有的科目表现优异,有的科目则显得吃力。

医疗领域的测试结果最为encouraging。顶级AI系统在医疗任务中的表现相对稳定,特别是在需要遵循标准诊疗指南的场景中。这主要是因为医学有相对完整和标准化的知识体系,就像是有一本详细的操作手册。当AI需要根据症状判断可能的疾病,或者根据患者情况制定治疗方案时,它们能够较好地遵循既定的医学逻辑和临床指南。然而,AI在处理需要丰富临床经验的复杂病例时仍显不足,特别是那些需要综合考虑患者心理状态、社会背景等因素的情况。

法律领域呈现出明显的两极分化现象。在处理标准化的法律条文解读和程序性问题时,AI表现相当出色,就像是一个熟练使用法律数据库的法律助理。但当面临需要深度分析判例、考虑法官裁量权或处理跨司法管辖区问题时,AI就显得力不从心。特别是在处理中国法律体系的任务时,AI需要理解具体的本土法律环境和执法实践,这对于主要在英文环境中训练的AI系统来说是一个挑战。

金融领域的结果最为复杂。AI在处理数据分析和风险计算等量化任务时表现不错,就像是一个勤奋的数据分析师。但在需要判断市场情绪、预测政策影响或做出投资决策等需要丰富经验和直觉的任务中,AI的表现就显得平庸。更令人担忧的是,AI有时会过度依赖历史数据模式,而忽视了金融市场的动态变化特性。

自然科学领域的测试产生了一个意外发现:中文和英文测试的成绩差异很小。这说明科学知识的普遍性在很大程度上超越了语言差异。无论是物理定律、化学反应还是生物过程,其基本原理在不同语言环境中都是一致的。AI在处理需要严格逻辑推理的科学问题时表现相对稳定,但在需要创新性思维或跨学科综合的研究问题上仍有待提升。

工业技术领域展现了AI的另一面特长。在处理技术规范、工程计算和标准化程序等任务中,AI表现得相当专业。这些任务通常有明确的技术标准和计算公式,就像是按照说明书组装机器一样有章可循。但当涉及到需要实际工程经验的问题,比如考虑施工条件、材料特性变化或安全风险评估时,AI的局限性就暴露出来了。

跨领域比较还揭示了一个重要现象:AI在处理"硬知识"(如科学定律、法律条文、技术标准)时表现较好,但在处理"软技能"(如判断、经验、创新)时仍有很大提升空间。这个发现对于理解AI的应用前景很有价值,它告诉我们AI更适合作为专业人士的知识助手和计算工具,而不是完全替代专业人士的判断和决策。

有趣的是,不同AI系统在同一领域内也表现出明显的"个性"差异。有的AI在法律条文检索上很强,但在案例分析上较弱。有的AI在医学诊断逻辑上表现出色,但在治疗方案制定上略显保守。这种差异化特征让我们看到,未来可能需要为不同专业领域定制专门的AI助手,就像是为不同科室配备专门的医疗设备一样。

四、AI系统的具体能力差异分析

当我们深入分析AI系统的具体能力时,就像是给每个AI做了一次全面的职业技能评估,结果显示出令人着迷的能力分布模式。

在事实信息获取能力方面,不同AI系统展现出截然不同的"查资料"水平。最优秀的AI系统就像是一个经验丰富的图书管理员,不仅能快速找到相关信息,还能判断信息的可靠性和时效性。但即使是表现最好的系统,在这个维度上的平均得分也只有50-60分,相当于一个还在学习阶段的研究助理水平。

更令人担忧的是,一些AI在获取搜索功能后,事实信息获取能力不升反降。这就像是给某些人配备了过于复杂的搜索工具,反而降低了他们的工作效率。比如有些AI在面对大量搜索结果时会出现"选择困难",无法有效筛选出最相关和可靠的信息,甚至会被一些看似相关但实际无用的信息所误导。

在分析推理能力方面,AI系统的表现呈现出有趣的分化。顶级AI系统在处理有明确逻辑链条的问题时表现不错,能够按照"如果-那么"的逻辑进行推理。但当面临需要多步骤、多变量综合分析的复杂问题时,很多AI就开始"掉链子"。特别是在需要考虑隐含条件、处理模糊信息或进行创新性思维的场景中,AI的局限性变得非常明显。

指令遵循能力成为了最"脆弱"的环节。这个发现特别值得关注,因为在专业工作中,严格按照要求执行任务是最基本的要求。研究发现,当给AI配备搜索功能后,一些原本指令遵循能力不错的AI反而开始"跑偏",就像是获得了更多信息后反而忘记了原始任务的要求。这种现象在法律和医疗等对合规性要求极高的领域尤其危险。

结构化表达能力则呈现出相对稳定的表现。大多数AI都能够产生格式整齐、逻辑清晰的输出,就像是训练有素的文秘能够制作规范的文档。但这种能力的稳定性有时反而成为一个陷阱,因为一些AI过分注重形式的完美,而忽略了内容的准确性和实用性。

特别有启发性的是,研究团队发现了AI能力之间的"跷跷板效应"。当某个AI在搜索能力上表现出色时,它的独立推理能力可能反而会下降,就像是过度依赖外部信息而缺乏独立思考。相反,一些在没有搜索工具时推理能力较强的AI,在配备搜索功能后可能会因为信息过载而表现下降。

这种能力分析还揭示了一个重要的发现:AI的"学习迁移"能力仍然有限。在一个领域表现优秀的AI,在另一个领域的表现可能会大打折扣,即使这两个领域在逻辑结构上很相似。这说明现阶段的AI更像是"专业技工"而不是"通才",它们在特定领域的知识和技能很难有效迁移到其他领域。

从实用性角度来看,这些能力差异分析为我们提供了重要的应用指导。对于需要大量信息检索的任务,应该选择那些事实获取能力强的AI。对于需要复杂推理的任务,应该优先考虑逻辑分析能力突出的AI。而对于需要严格遵循规范的专业任务,指令遵循能力的稳定性可能比其他能力更重要。

五、评估方法的创新与发现

这次研究最大的创新在于建立了一套全新的AI评估标准,就像是为AI制定了第一套"职业资格认证"体系。传统的AI测试就像是学校里的标准化考试,主要看答案对不对。而这套新的评估方法更像是真实的工作绩效考核,不仅要看结果,更要看工作过程是否专业、是否符合行业标准。

研究团队设计的评分系统特别巧妙,采用了"负分机制"。这意味着AI不仅要做对,还不能犯严重错误。就像是医生不仅要能治病,还绝不能开出有害的药方。在传统测试中,AI可能因为运气好蒙对了答案而得分,但在这套新系统中,如果AI给出了危险的建议或违反了专业规范,就会被大幅扣分。这种设计更接近真实世界的工作要求,因为在专业领域,犯错的代价往往比不作为更严重。

特别令人印象深刻的是研究团队建立的"经济价值"计算方法。他们不是随意地说这些任务很重要,而是实实在在地计算了如果让人类专家来完成这些任务需要花费多少钱。通过调研各个领域资深专家的时薪,再乘以完成任务所需的时间,最终得出这400个任务的总价值超过100万美元。这种计算方法让AI的能力评估有了明确的经济学意义,不再是抽象的技术指标。

在时间敏感性测试中,研究团队发现了一个意想不到的现象。他们将任务分为三类:时间无关的(比如基本的数学原理)、弱时间相关的(比如一般的行业知识)和强时间相关的(比如最新的法规变化)。结果显示,几乎所有AI在处理需要最新信息的任务时表现都会明显下降,这暴露了AI知识更新的滞后问题。就像是一个几年没有继续教育的专业人士,虽然基础知识还在,但对行业最新发展就不太了解了。

评估过程中的"多评委"机制也产生了有趣的发现。研究团队使用了不同的AI系统作为评判者,结果发现不同的"评委"对同一个回答的评分确实存在差异,但总体排名相对稳定。这就像是不同的老师对学生作文的打分可能有差异,但对于哪些学生写得好、哪些写得差的基本判断是一致的。这个发现增强了评估结果的可信度。

成本效益分析揭示了一个重要趋势:配备搜索功能的AI在经济价值上显著超越了基础AI,即使考虑了额外的计算成本。这就像是给工人配备更好的工具,虽然工具成本增加了,但工作效率的提升更加显著。有趣的是,一些中等水平的AI配备搜索功能后,其性价比甚至超过了某些高端AI,这为AI产品的商业化应用提供了重要参考。

研究还发现了"测试时扩展性"的问题。当给AI更多时间和计算资源时,它们的表现确实会有所提升,但这种提升有明显的边际递减效应。就像是延长考试时间,成绩好的学生能够进一步提高分数,但提升幅度会逐渐缩小。这个发现对于理解AI的潜力上限很有价值。

语言对比测试产生了一个意外发现:在科学技术领域,中英文测试的成绩差异很小,但在法律和商业领域,语言差异的影响更加明显。这可能是因为科学知识具有更强的普遍性,而法律和商业更依赖于具体的文化背景和本土实践。

六、实际应用中的挑战与限制

当我们从实验室的测试环境转向真实的工作场景时,AI智能体面临的挑战比预期的更加复杂。就像是一个在驾校训练场表现优秀的学员,真正上路时可能会遇到各种意想不到的情况。

最明显的挑战来自于AI对"完美信息"的依赖。在测试环境中,每个任务都有相对完整和准确的背景信息,就像是为AI精心准备的"标准化案例"。但在现实工作中,专业人士经常面临信息不完整、相互矛盾或者时效性存疑的情况。比如,一个律师可能需要在客户提供的信息不完整的情况下给出法律建议,或者医生需要在诊断设备暂时不可用时做出判断。这种"信息不完美"的现实环境对AI来说是一个巨大的挑战。

另一个重要限制是AI缺乏"常识性判断"。在专业工作中,经验丰富的从业者往往能够凭借直觉发现某些表面上看起来合理但实际上有问题的情况。比如,一个有经验的财务分析师可能会对某个看起来完美的财务报告产生怀疑,因为数据"太完美了"。而AI目前还缺乏这种基于经验和直觉的质疑能力,更倾向于按照既定逻辑处理看似合理的信息。

责任归属问题也是一个现实挑战。当AI给出专业建议时,如果出现错误,责任应该由谁承担?这不仅是技术问题,更是法律和伦理问题。现有的专业责任体系都是基于人类专业人士建立的,如何将AI纳入这个体系仍然是一个未解的难题。这种不确定性使得很多机构在使用AI进行关键决策时仍然保持谨慎态度。

成本效益的计算也比理论分析复杂得多。虽然AI能够处理某些专业任务,但实际应用中往往还需要人类专家的监督和验证,这增加了额外的人力成本。更重要的是,AI出错的修正成本可能远高于其节省的成本。就像是自动驾驶汽车虽然在大多数情况下能够正常行驶,但一旦出现事故,后果可能比人类驾驶员的失误更严重。

用户接受度也是一个不容忽视的因素。即使AI在技术上能够胜任某些专业任务,但如果用户(无论是专业人士还是普通客户)不信任AI的判断,那么技术优势就无法转化为实际价值。这种信任的建立需要时间,也需要AI在更多场景中证明自己的可靠性。

监管合规是另一个复杂挑战。不同行业都有严格的监管要求,这些要求往往滞后于技术发展。即使AI在技术上能够满足专业标准,但可能还不符合现有的监管框架。比如,许多医疗监管机构还没有完整的AI诊断系统审批流程,这限制了AI在医疗领域的广泛应用。

数据隐私和安全问题在专业应用中尤其敏感。专业工作往往涉及大量敏感信息,如客户的财务状况、患者的医疗记录或者企业的商业机密。如何在利用AI能力的同时保护这些敏感信息,是一个需要技术和管理双重解决方案的复杂问题。

持续学习和知识更新也是一个现实限制。专业领域的知识更新很快,法律法规会变化,医疗技术会进步,市场环境会演变。而现有的AI系统在知识更新方面还比较僵化,不能像人类专业人士那样通过持续学习来保持专业水平。这意味着AI系统需要定期更新和重新训练,增加了维护成本和复杂性。

七、对未来AI发展的启示

这项大规模测试为AI的未来发展描绘了一幅既现实又充满希望的图景。就像是第一次对新兴科技进行全面"体检",结果既让我们看到了巨大潜力,也清楚地认识到了现阶段的局限性。

从技术发展方向来看,这个测试明确指出了AI需要突破的关键瓶颈。现有AI系统在"知其然"方面已经相当出色,能够快速检索和整理信息,但在"知其所以然"方面还有很大提升空间。未来AI的发展重点应该从单纯的信息处理转向深度理解和判断能力的培养,就像是从培养"记忆型学生"转向培养"分析型学生"。

专业化发展可能是未来的重要趋势。测试结果显示,通用AI在所有专业领域都表现平均,但没有在任何领域达到真正的专家水平。这提示我们,未来可能需要为不同专业领域开发专门的AI系统,就像是医院里有不同科室的专科医生一样。这些专业化AI不仅要掌握领域知识,更要深度理解行业规范、工作流程和思维模式。

人机协作模式的重要性在这次测试中得到了充分体现。结果表明,AI最适合的角色不是完全替代人类专业人士,而是作为强大的助手和工具。就像是医生使用先进的诊断设备一样,AI可以大大增强人类的专业能力,但最终的判断和决策仍然需要人类的智慧和经验。这种认识将推动更多"人机协作"产品和服务模式的出现。

评估标准的建立也将推动整个行业的发展。这个"百万美元基准"可能成为AI行业的重要参考标准,就像汽车行业的安全碰撞测试一样。有了统一的评估标准,不同AI系统的能力比较变得更加客观和可信,这将促进良性竞争和技术进步。

对于AI安全和可靠性的关注也会更加重要。测试中发现的"负分机制"效应提醒我们,在专业领域,AI的错误可能比无作为更危险。这将推动更多研究关注AI的安全性和可控性,确保AI在获得更强能力的同时不会产生意外的风险。

教育和培训模式也将因此发生变化。既然AI将成为专业工作的重要工具,那么专业人士的培训就需要包括如何有效使用AI助手。同时,AI的训练也需要更多地结合实际的专业工作场景,而不仅仅是学术化的数据集。这种双向的教育变革将重塑整个专业教育体系。

监管框架的完善将成为迫切需要。测试结果显示AI已经具备了在某些专业领域提供有价值服务的能力,但现有的监管框架还没有跟上技术发展的步伐。未来需要在保证安全的前提下,为AI在专业领域的应用建立合理的监管框架,既要防止风险,又不能过度限制技术应用。

商业模式的创新空间也非常巨大。测试揭示的成本效益分析为AI服务的定价提供了客观基础。企业可以根据AI能够替代的人工成本来合理定价,同时也可以根据AI的能力水平来设计不同层次的服务产品。

最重要的是,这项研究确立了一个重要原则:AI的价值不应该用抽象的技术指标来衡量,而应该用实际的应用效果和经济价值来评判。这种以应用为导向的评估方式将引导AI研究更加关注实际需求,推动技术真正为社会创造价值。

展望未来,我们可以期待看到更多像这样的大规模、多领域、应用导向的AI评估研究。这些研究不仅能够客观评价AI的现状,更能够为AI的未来发展指明方向。同时,随着AI技术的不断进步,我们也期待看到AI在专业领域的表现不断提升,最终成为人类专业工作者不可或缺的智能伙伴。

这个"百万美元大考"只是开始,它为我们建立了一个基准,让我们能够客观地衡量AI的进步。随着技术的发展,我们期待未来的AI能够在这个基准上取得更好的成绩,真正实现从"能用"到"好用"再到"离不开"的跨越。

Q&A

Q1:什么是百万美元基准测试?

A:百万美元基准是一个专门测试AI智能体在专业领域表现的评测体系,包含法律、金融、医疗、自然科学和工业技术五个领域的400个高难度任务。之所以叫"百万美元",是因为让真正的专业人士完成这些任务需要支付超过100万美元的人工费用。

Q2:目前最好的AI在专业工作中表现如何?

A:表现最优秀的AI系统Claude-Opus-4.6在配备网络搜索功能时,综合得分达到63%,通过率为43.5%,相当于一个刚入职的初级专业人员水平。这个成绩在某些特定任务上令人印象深刻,但距离资深专家标准仍有明显差距。

Q3:AI智能体能完全替代专业人士吗?

A:目前不能完全替代。测试结果表明AI更适合作为专业人士的智能助手,能够在信息检索、数据分析等方面提供强大支持,但在需要经验判断、创新思维和复杂决策的场景中仍需要人类专家的监督和指导。

相关内容

热门资讯

原创 一... 在当今全球化的时代,越来越多的年轻人怀揣着梦想奔赴异国他乡,去追寻不一样的生活和发展机会。我朋友认识...
被视为"万能助手&q... 这项由Humanlaya、BIGAI、xbench和M-A-P等机构联合开展的研究发表于2026年3...
能源震荡之下通胀难料 AI产业... 受中东局势动荡影响,18日布伦特原油价格已冲破100美元大关,月内涨幅接近50%。这一能源市场的剧烈...
为何Garry Tan的Cla... Y Combinator知名CEO Garry Tan在SXSW大会上向观众表示,他患上了"网络精神...