Anthropic 推出了 Claude Sonnet 4.5,这是其最新的人工智能,改进了编码性能,旨在更好地帮助软件开发人员编写应用程序。
Sonnet 4.5 在几个主要的人工智能编码基准测试中表现出色,包括SWE-bench和Terminal-Bench.从其领先的OSWorld 基准测试结果中可以看出,人工智能使用计算机工具自主完成任务的能力得到了提高。结果可以看出,人工智能使用计算机工具自主完成任务的能力得到了提高,这使它能够https://www.youtube.com/watch?v=PnX30ZXxKco的克隆网站。
人工智能能力的提高使其在回答金融、法律、医疗和 STEM 领域的提示时比 Anthropic 之前的模型更胜一筹,但在回答这些类型的提示时,Claude Sonnet 4.5 只能获得 C 到 D 的分数。在MMMU 基准测试中,它在视觉推理任务中的表现也不如其他人工智能模型。测试中,它在视觉推理任务中的表现也比其他人工智能模型差。
黑客们会希望使用其他人工智能模型来做坏事,比如进行提示注入攻击,因为在所有测试过的人工智能模型中,Sonnet 4.5 的成功率是最低的。
喜欢辛辣人工智能聊天的用户会发现最新的克劳德令人失望,因为它自发谈论精神生活的比率降低了。此外,该模型也较少表达对自己的积极评价,这使得聊天变得更加沉闷。
有兴趣与克劳德-十四行诗 4.5 聊天的读者可以在下载智能手机应用程序或访问人类学网站上的人工智能.那些真正将人工智能用于工作的人可以使用Plaud Note,让克劳德为站立式会议进行总结和转录。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名