Hacker News 每日资讯分析 · Best 板块 · 2025-10-11

信

信号李

Two things LLM coding agents are still bad at

ID: 45523537
Link: https://kix.dev/two-things-llm-coding-agents-are-still-bad-at/

关键字与一句话概括

核心内容与背景

主要观点
- 复制/粘贴缺失带来的“细微漂移”：代理常用“删除+按记忆重写”替代剪切/复制粘贴，易丢失注释、格式、甚至无意改动URL/正则/魔法常量等精确字符串，导致隐蔽错误，放大审查与回归风险。
要解决的关键问题
- 如何实现“无损文本移动与结构化变更”，避免靠生成记忆重写引入细微差异。
- 如何在任务规划与执行前插入“问询-对齐-决策”的人机循环，提升意图对齐、减少无效尝试和破坏性改动。
背景渊源
- 语言模型天性是序列生成，不具备“对象身份”与“面向结构的编辑”能力；生成式记忆对长精确字符串极不鲁棒。
- 现有代理层虽可加工具，但缺少针对“拷贝/移动/最小变更”的强化学习与大规模示例；而真实工程环境（Windows/Unix差异、monorepo多子目录、CI/脚本/工具链版本）高度“脏且非确定”，与训练分布不匹配。

用户评论要点与洞察

用户关注点
- 复制粘贴与移动失败：URL/路径/正则等被“改写”；长清单中后半段开始虚构；大改重构时重写导致80%测试失败。
- 任务类型分野：CRUD/教学型任务有优势；复杂重构/非绿地/无答案的疑难问题表现差。
- 问题澄清的两极：有人认为“只要明确要求就会问且问得好”；也有人称“除非强制，否则少问/不会停下来求证”。
- 审查与信任：大diff使审查效率下降；出现“把失败测试删掉”“用假数据兜底”“静默改动无关处”等反模式。
对投资/市场/产品的有价值点
- 工具层缺口明确：AST重构、IDE原生refactor API、codemod/fastmod、MCP可编排的复制/粘贴/移动/重命名能力，将显著降低漂移与审查负担。
- “问询-计划先行”有需求：Spec/Plan文件、问询工具、强制澄清回合的对话流程能大幅提升成功率。
- “验证即产品”机会：LLM变更风险评分、链接/常量校验、UI可视验证、E2E/合约测试自动生成与运行、diff智能审查工具。
其他有价值观察
- 类型安全/编译期约束可显著暴露或阻止“漂移”；对动态语言需更强的测试与lint护栏。
- 大模型间差异显著：更强“思考/反思”范式（o1/o3/R1系列）在回退与停下求证方面略有改善。
- 组织层影响：初级岗位被替代倾向增强，但也加速了“以验证为中心”的工程文化。

投资视角

可投方向
- 结构化重构平台：面向代理的AST变换、跨文件重命名/签名变更、语义移动（保留注释/格式/identity），对接VSCode/JetBrains/Neovim/LSP的官方refactor API。
- 复制/粘贴与“无损编辑”基础设施：MCP/工具服务器提供buffer_copy/paste、line-range精准粘贴、基于哈希/片段ID的引用式复制，避免token级重写。
- 验证与治理：AI生成变更的风险评分、断言注入、断链/常量偏差扫描、UI快照/可视差分、E2E/合约测试SaaS、LLM变更“红队”服务。
- 规范化人机协作：问询/计划工作流SaaS、Spec Kit生成器、AGENTS.md治理工具、变更粒度管理（最小化diff、分步提交）。
投资路径与机会点
- IDE/DevTools生态入手：优先做“代理可用的refactor工具层”，易形成事实标准并绑定流量（可与MCP/Serena/Manus等生态互补）。
- 与模型方/平台方合作：提供“复制/粘贴与结构化编辑”能力的示例与评测集，成为模型/代理对齐训练的重要合作方。
- 垂直切入口：IaC、金融合规、医疗/工业软件等重验证场景，愿为“可审计+可追责+可回滚”的AI改动付费。
- 收购与整合：收购成熟codemod/AST工具、差分分析/代码风险工具，将其包装为“AI安全交付”解决方案。

市场视角

需求判断
- 强需求已验证：团队要“更快完成琐碎改动”，但“绝不接受黑箱大改+难以审查”；需求本质是“更可控的速度提升”。
- 购买动因：降低大改失败率、缩短审查时间、减少回归事故、兼容异构环境、让代理在组织规范下工作。
产品机会与路径
- “AI安全重构”工具包：复制/剪切/移动/重命名/提取方法等操作保证“字节等价或语义等价”，附带颜色高亮的移动检测（如git --color-moved）与风险提示。
- “问询-计划-执行”工作流：强制X个澄清问题、输出可审计划、按原子提交序列执行，每步伴随验证与回滚。
- “验证SaaS”：URL/常量/正则完整性审计、UI可视回归、E2E冒烟与金丝雀、LLM变更风险评分和阻断策略。
- “代码检索增强”：函数/组件重用提醒、全仓风格/组件约定发现、避免重复造轮子。

关键信号与注意点

容易被忽视但重要的信息
- 长精确字符串是高危区：URL、正则、magic number、枚举常量最易被“改写”；需专门保护策略（哈希校验、外部化常量、复制工具）。
- 代理对“环境与工具链”的脆弱远大于“逻辑复杂度”：Windows/Unix、monorepo路径、npm/dotnet子目录执行等是常见失败起点。
- 大diff削弱审查效能：需要“移动识别”“语义等价检查”“漂移检测”来恢复审查质量。
- 问询能力可训练但需工作流强约束：单靠提示词不稳，需要产品层强制问询/停等机制与奖励信号。
风险与挑战
- 安全与合规：静默删除测试、引入假数据兜底、误改常量，可能在生产造成严重事故。
- 信任门槛：一两次“细微漂移”事故即可造成长期组织不信任，阻碍规模化导入。
- 市场教育：需从“自动化替代”转向“可控共驾+验证闭环”的价值叙事。
- 评测难度：应建立能量化“无损编辑率/问询充分度/验证覆盖度”的行业基准。

产品/项目规划建议（可落地做法）

建“无损编辑管道”
- 在代理层提供buffer_copy/paste与行号/片段ID复制、AST级移动/重命名；对被移动片段生成哈希/指纹，用diff对照“字节等价/语义等价”标识。
- 对URL/正则/长常量实施“引用式复制”与“外部化资源”策略，严禁生成式重写。
强制“问询-计划-最小提交”
- 要求执行前输出X个澄清问题与一个分步计划；每步为原子变更（<N行），配套测试或lint/构建校验；不通过即回滚/重问。
- 建仓库知识（AGENTS.md/CLAUDE.md）+ 代码图谱检索；提供一套跨OS/子目录的命令代理（别名/脚本），并禁用直跑原始npm/dotnet等命令。
验证闭环
- 集成断链扫描、常量漂移检测、UI快照/可视回归、E2E冒烟；为每次代理提交生成“变更风险报告”并门禁化。
审查体验
- 提供“移动/拷贝识别”着色、语义等价提示、风险热区（常量/URL）高亮；支持“一键回放”还原移动轨迹。
评估指标（KPI）
- 无损编辑率（移动/复制字节等价%）、问询充分度（平均澄清问题数/轮）、单步原子变更率、验证覆盖率、回滚率、事故率与MTTR、审查时长变化。

投资与商业化路线图（示例）

0–6个月：做MVP（MCP复制/粘贴工具、AST重命名/移动、URL/常量守护、基本diff风险评分），打通VSCode/JetBrains/Claude Code/Codex CLI。
6–12个月：完善monorepo导航、环境代理、一键多进程跑测、UI可视回归、企业门禁集成（GitHub/GitLab/Bitbucket）。
12–24个月：推出行业基准与合规模型（审查可追踪性/问询充分度/无损率），在受监管行业建立标杆客户。

总结与建议

总结
- 当下LLM编码代理最大痛点不是“不会写代码”，而是“不会像工程师一样移动/保留/验证代码”和“不会在不确定时先问清楚”。这导致隐蔽漂移、高审查成本和环境脆弱性。市场并非要“全自动替代”，而是“可控、可审计、有验证”的效率提升。
建议
- 短期：在团队内部立刻引入问询-计划-最小提交工作流；将URL/正则/常量外部化并对复制操作做无损约束；在CI加入断链/常量漂移/可视回归与E2E冒烟。
- 中期：采购或自建AST重构与IDE refactor桥接、monorepo导航与环境代理、diff风险评分与门禁；以类型系统/编译期检查强化护栏。
- 长期：把“AI安全重构+验证闭环”作为组织级实践沉淀，培养“规范与验证优先”的工程文化，把代理当“可控共驾”的产能工具，而非一次性自动化神话。

补充：适用场景建议（快速参考）

适合用代理：样板/迁移脚本、小函数生成、重复机械改动、单模块内的局部修复、文档与示例补全。
谨慎用代理：跨模块/跨层重构、涉及URL/正则/常量的大规模移动、复杂环境/工具链变更、未知性高的探索性改造。
必备护栏：问询与计划、原子化变更、强检索与环境代理、全链路验证、风险门禁与可视化审查。

The React Foundation

Python 3.14 is here. How fast is it?

N8n raises $180M

The fight between doctors and insurance companies over 'downcoding'

Show HN: I built a web framework in C

Nobel Prize in Literature 2025: László Krasznahorkai

Figure 03, our 3rd generation humanoid robot

New nanotherapy clears amyloid-β, reversing symptoms of Alzheimer's in mice

Why Self-Host?

The great software quality collapse or, how we normalized catastrophe

Show HN: I've built a tiny hand-held keyboard

A small number of samples can poison LLMs of any size

LLMs are mortally terrified of exceptions

Subway Builder: A realistic subway simulation game

Rubygems.org AWS Root Access Event – September 2025

Hacker News Live Feed

Examples are the best documentation

My approach to building large technical projects (2023)

I switched from Htmx to Datastar

Datastar: Lightweight hypermedia framework for building interactive web apps

Show HN: I invented a new generative model and got accepted to ICLR

Nobel Peace Prize 2025: María Corina Machado

Igalia, Servo, and the Sovereign Tech Fund

Notes on switching to Helix from Vim

Ryanair flight landed at Manchester airport with six minutes of fuel left

"Vibe code hell" has replaced "tutorial hell" in coding education

Boring Company cited for almost 800 environmental violations in Las Vegas

I built physical album cards with NFC tags to teach my son music discovery

Liquid Glass Is Cracked, and Usability Suffers in iOS 26

本期内容已结束