基本物理任务,AI的领先全球失败了!普通处理零

科技 bet356在线官方网站 浏览

小编:Xin Zhiyuan报告编辑:KingHz [Xin Zhiyuan简介]在基本的体育活动中,AI切割模型仍然会失败! ML研究所

Xin Zhiyuan报告编辑:KingHz [Xin Zhiyuan简介]在基本的体育活动中,AI切割模型仍然会失败! ML研究所的测试案例表明,白领工人将被AI取代,而蓝领工人(例如制造业)不会受到影响。未来来了,但分布不均。基于AI研究,机器人技术和实际制造等过去的经验,Adam Karvonen回顾了组件组件中主要模型的性能。包括OpenAi O3,Gemini 2.5 Pro在内的顶级LLM,都失败了,他们都不喜欢他! ,但是在此测试中,这不如双子座2.5 Pro好,让经验丰富的工人的经验丰富的主人。基于此,他认为,将来,AI自动化了大量的白领工作,而Blue Kwelyo的任务不会受到影响。换句话说,自动化在整个行业中并非同样发生。尽管不知道这种失衡会持续多久,但他认为t局部自动化几乎是已定局的结论。亚当·卡沃宁(Adam Karvonen)这与人类预言达里奥·阿莫迪(Dario Amodei)有很大不同。达里乌斯(Darius)曾经说过,几乎所有工作都同时自动工作,从而将所有东西都“在同一条船上”。但是亚当·卡沃宁(Adam Karvonen)担任机械师,还使用机器人技术。此外,他从事软件的开发工作,现在是MATS学者项目的机器研究的研究人员。可以说,他是研究AI对蓝领工人的影响的最佳候选人。制造组件:物理 +视力评估双重挑战很简单:制定详细计划,使用3轴CNC铣床和2轴CNC车床在零件的加工中,如下图所示。在测试中可以找到的组件尽管并不简单,在常见的原型或工作店环境中,大多数技术人员都会考虑将这项工作作为常规工作,涉及标准和研磨方法,但是需要大量的加工步骤。 CNC铣床和车床零件加工图虽然很简单,即使切割诸如O1-Pro或Gemini 2.5 Pro之类的模型通常会造成重大错误。这些错误可以分为两类:视觉功能和物理推理功能。视觉错误大多数模型具有非常困难的视觉功能:在过去的两年中,蚂蚁模型和OpenAI并未在视觉功能方面进行任何重大发展。他们总是错过一些明显的功能。尽管这是本节中的一个合理描述,但Claude 3.5,Claude 3.7,GPT-4.5,GPT-4O或O1-Pro不能这样做。没有视觉功能,几乎完全不可能制定制造计划。有趣的是,在视觉推理(例如MMMU)的基准中,许多模型更高或更接近人类专家的水平。但是,测试的主题和MMMU基准的示例,但是测量事物通常没有直接连接现实世界的实用性。当我2.5在视觉能力方面取得了重大发展时,双与双子会看到她的惊喜。它可以获得的一些细节真的很棒。但是,改善此视觉量的是pansets显示出更深的未解决问题。比较Adam Karvonen和Gemini的加工部分的描述2.5 Adam Karvonen的加工部分的描述,描述了Gemini 2.5 Pro的描述,这是一个细长的铜制缸,两端都具有不同直径的步骤和线。该物质长2英寸,直径为0.187英寸,因此直径比的长度超过10:1。材料:材料:铜(可能是C360自由切割的铜,易于处理的铜)形状:主要是圆柱形的,具有许多不同直径的圆柱形,两端的螺纹在两端,均匀的平面,两个平面,一个平面,一个平面,一个平面,一个平面孔。估计尺寸:大约2英寸长,直径为OF 3/16英寸(0.1875英寸)。线程更薄(也许是#6-32或M4规格)。较小的纱线孔(可能是#2-56或M2.5规格)。横孔较小(约1/16英寸或1.5mm)。需要从图纸中获得确切的测量结果,但是我们可以根据这些估计的维度进行研究。在物理推理不正确之前,很难将视觉纠纷与更深层的推理问题区分开。现在,即使从准确的视觉解释中,Gemini 2.5仍然制定了充满实际错误的处理计划。常见错误包括:忽略硬度和振动;物理上不可能夹紧工件。忽略硬度和振动。该部分的直径是长而薄的亲戚。如果您使用常用方法来搜索此操作,则可能在处理过程中引起处理零件,也可能会迅速振动到切割工具(称为“振动器”现象)。所有只进入行业的技术人员都可以立即意识到硬度对于这样的长而薄的部分很重要。当特别被问到摇床的问题时,双子座对书籍的解决方案(例如尾stocks)的误解加剧了易于弯曲的问题,例如这种长而薄的黄铜部分。握住尾巴是一种不可能的物理工件夹具,是常用的加工设备。双子座通常建议一些令人难以置信的工件夹紧和操作。最常见的建议是将固定装置(尤其是Chuck块)中的零件夹住,加工了某些功能,然后在加工其他功能时旋转固定装置。但是,这在物理上是不可能的,因为配件阻止了这些新功能。亚当·卡沃宁(Adam Karvonen)的普遍印象是:“这就像重述教科书知识,但不明白他们在说什么。”这些模型非常乐意提供有关本书的知识,但是重要的实践细节绝对是错误的。这与他的反馈一致从制造业和建筑行业获得的:当前的LLM在其工作和动手方面的核心几乎完全没有用。该分析是一个浅薄的文本项目,它是任务中最简单的部分。实际处理,它涉及每个步骤的管理背后的许多细节。选择切割工具时,只需考虑许多因素,例如工具尖端半径,固定碰撞,工子刚度,涂料,速度/饲料速率等的工具通常都在折衷和权衡方面,例如间隔和刚性之间的平衡。有许多重要的空间问题,这些问题无法使用文本对这些问题进行充分评估。如果这些模型在这些描述性方面发挥不良状态,那么它们对基本物理现实的理解可能会更糟。实际上,真正的关键是要克服许多困难,每个困难都比以前更加困难:基本的物理公义:不仅要清楚地看到零件,模型还应该提出建议SE物理操作和设置。这涉及基本的空间推理,以确保例如,访问该工具不会被固定装置阻止。称赞的身体知识:成功的处理需要了解现实世界的物理和潜在知识。这通常需要实用的经验,但是现有数据集不能这样做。优化过程:在步骤1-3中保留细节是正确处理零件的要求。正如马斯克所说,良好的制造业比劳动原型的难度高10-100倍。这是工作中真正具有挑战性的部分。步骤2到4可能难以通过限制生成的合成数据来解决。与亚当·卡尔沃宁(Adam Karvonen)交谈的几乎所有技术人员都认为,工程师理解本书的公式 - 凯德和CAD,但不了解真正制造的障碍。模拟的环境似乎可能会在Parehong缺陷中创建AI。为什么LLM表现不佳?缺乏数据是最明显的LLM在体育活动中表现不佳的原因。诸如处理之类的问题取决于许多隐性知识和经验学到的无数细节。这些细节通常不会记录。这并不是因为专家故意隐藏了秘密,而是因为记录了现实世界是不现实或良好的彻底了解。软件工程师很少记录每个代码线后面的所有推理。同样,加工技术人员每次设置零件时都没有记录所有考虑因素。导师教步骤阶梯,比通过书籍研究或记忆的计划更快,更好。在软件工程或法律等领域,它会造成不同的眼泪。尽管软件或律师工程师可能无法清楚地记录每个推理的每个步骤,但他们开发了诸如代码,版本和合同的产品,都包含非常丰富且详细的信息。在体育活动中,尽管相应的详细信息也存在Ormation,此信息嵌入了3D世界中,通常很难有效地使用。因此,LLM在检查一些书研究知识时表现良好,但这还远远不够。从经验来看,改善体育活动可能很困难,领先的模型目前在这些任务中的表现不佳。这只是一个暂时的障碍,可以尽快克服吗?这很难确定,但是亚当·卡沃宁·哈索姆(Adam Karvonen Hassome)的猜测是解释为什么未来发展可能很困难并且可能比预期更容易的原因。一个明确的解释是,LLM在体育活动中没有执行,因为目前没有人投入足够的能量。但是,提高理解物理世界可能非常困难。提高编码功能的途径取决于大量培训数据和明确的奖励信号,这支持了使用强化和合成数据的使用。但是,此方法不适用于能够进行体育活动。为什么要改进可能难以证实的奖励:确定复杂体育活动的奖励信号非常困难。几年后,零件缺陷可能显示出略有增加的速率,或者多年后由于防水涂料的错误施加而衰减。带有模具的注射产品中的裂纹反馈回路可能很长,并且很难以自动方式测量结果。缓慢,昂贵且危险的试验和错误:研究加强或生成合成数据可能非常困难。一个错误很容易导致数千或更多的损失。与漏洞的运行代码不同,使用重型机械或建筑建筑构造的错误可能会带来严重的后果。拥有制造经验通常需要昂贵且有限的资源,而不仅仅是GPU几次。为什么改进能比预期的AI研究人员更重要:AI产生了重要的发展AI编码和研究中的选择。人们可以轻松接受AI研究人员。也许这种自动AI研究人员可以通过创建更好的算法或大量仿真数据来轻松解决这些挑战。合成数据:尚未完全探索一些明显的方法。例如,仿真可用于创建大量数据,尽管模拟与现实之间存在差距。举例来说,以特定的制造过程(例如CNC加工),计算机辅助软件(CAM)可以准确地模仿大多数操作。但是,制造过程中有许多不同的过程,许多过程没有良好的仿真解决方案。事实上,尽管在提高体育活动处理能力方面存在许多挑战,但未来技术的发展,AI自动研究人员的出现以及合成数据的广泛使用。不平衡的影响如果这种趋势继续下去,人们将面临一个新的阶段,而远距离工作会经历大量自动化,而经历的体育锻炼将受到AI的影响。这种“自动化差距”窗口可能需要一个未知的时期,并且具有潜在的影响:1。加强紧张局势,自动化行业之间很容易发生重大阶级冲突,而不是自动发生,尤其是因为两组之间还有其他潜在差异。白人白人的工人更有可能处理替换工作,他们经常获得更多的收入,并拥有更多自由主义的政治信念。这些差异会加剧紧张局势,并在自动化行业社区引起严重的经济疾病。 2。公众反对AI可能导致公众反对进一步的AI研究。像蓝领工人这样的团体有证据表明自动化可以迅速发生,并且可能不想被AI替换。它可以进一步阻碍AI的发展并延长存在不平衡。 3。如果大多数工作知识是自动的,则可以进行体育劳动瓶颈,例如制造这种体力劳动的能力,可能是技术或国防发展的瓶颈。像中国这样的国家,可能更强大的工业基础可以获得巨大的战略利益。但是有很多不确定性。参考:https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-val.html回到Sohu,以查看更多信息

当前网址:https://www.ajitaro.com//a/keji/589.html

 
你可能喜欢的: