标签: LLM

  • ArXiv出手了:用AI写论文不检查?直接封号1年

    预印本平台ArXiv最近干了件大事。他们更新了 submission 政策——以后要是你的论文里出现”AI完全代写且没人工核对”的实锤证据,作者会被封号整整一年。

    这事儿说起来挺有意思。ArXiv那帮管理者(领导核心是计算机科学版块主席Thomas Dietterich)直接在X和Bluesky上发了公告,核心意思很明确:如果发现论文里有”无可争议的证据”证明作者根本没检查LLM生成的结果,那整篇论文的内容都不可信。

    “如果发现论文存在无可争议的证据表明作者未检查LLM生成的结果,这意味着我们无法信任论文中的任何内容。”——Thomas Dietterich,ArXiv计算机科学版块主席

    什么样的证据算”无可争议”?

    Dietterich说得很具体:幻觉参考文献(hallucinated references)、论文里残留的LLM提示词或对话记录,这些都属于”铁证”。一旦被发现,处罚很直接——1年内禁止向ArXiv提交任何论文,1年后再想投稿,必须先在有同行评审的知名期刊/会议上发表过才能解锁资格。

    Business research concept
    学术研究需要真实贡献,而非AI生成的”垃圾论文” (图片来源:Getty Images)

    注意啊,这政策不是”完全禁止用LLM”。人家说得清清楚楚:你可以用AI辅助写作,但必须对生成的内容”负全部责任”,不管内容是咋生成的。如果你直接从LLM复制粘贴了”不合适的语言、抄袭内容、偏见内容、错误、失误、不正确的参考文献或误导性内容”——那都是你的责任。

    执行方式:一次出局

    Dietterich跟404 Media说,这是”一次出局”(one-strike)规则。不过执行前得走流程:版主先标记问题,然后版块主席确认证据,最后才处罚。作者要是不服,也可以申诉。


    为啥现在管这么严?

    最近有同行评审研究发现,生物医学研究领域伪造引用的情况在飙升,大概率跟LLM的使用有关。其实不止科学家,好多人都被AI生成的假参考文献坑过。

    ArXiv这两年一直在跟”AI垃圾论文”斗智斗勇。之前就已经要求首次投稿的作者必须找个”有信誉的作者”背书,现在又出了这个1年封号的政策。再加上ArXiv刚从康奈尔大学独立出来变成非营利组织,筹钱能力更强了,估计后续还会有更多手段来对付AI slop。

    • 政策并非完全禁止LLM,而是要求作者对内容负责
    • “铁证”包括幻觉参考文献、残留的LLM对话记录等
    • 处罚:1年封号 + 后续投稿需先通过同行评审
    • 执行流程:版主标记 → 版块主席确认 → 处罚(可申诉)
  • OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI又更新了,这次是GPT-5.5 Instant。说实话,大模型更新越来越频繁了,但这次有几个点我觉得确实值得关注。

    核心升级:减少幻觉+保持速度

    GPT-5.5 Instant取代了GPT-5.3 Instant,成为ChatGPT的新默认模型。从参数命名上就能看出来,这是一个侧重”即时响应”的版本。OpenAI这次最强调的改进是在法律、医疗、金融这些敏感领域减少了幻觉问题,同时保持了前代的低延迟。

    我觉得这个方向非常务实。说实话,现在的大模型在闲聊、写文案方面已经足够好了,真正让人不放心的反而是那些需要精确性的专业场景。如果GPT-5.5 Instant真的能显著降低医疗和法律领域的幻觉率,那这对于AI的实际落地来说,比数学竞赛分数提高几十个点要有意义得多。

    数据说话:AIME数学能力暴增

    不过数字确实也很漂亮。AIME 2025数学测试成绩从65.4直接飙升到81.2,提升了约24%。MMMU-Pro多模态推理从69.2涨到76。虽然AIME和普通人的日常使用场景关系不大,但这至少说明模型的基础推理能力确实在稳步提升。

    我比较关注的是,这种推理能力的提升能不能真正转化为日常使用中的体验改善。比如你在让它分析一份复杂报告的时候,是不是能给出更有深度的见解?在处理逻辑推理类问题的时候,是不是不那么容易”犯蠢”了?这些才是普通用户真正在乎的。

    记忆系统升级:Gmail集成是个杀手级功能

    这次更新中我认为最值得关注的功能,其实是上下文管理(Context Management)的升级。GPT-5.5 Instant现在可以搜索和回溯你过去的对话、文件,甚至直接访问你的Gmail。

    这意味着什么?意味着ChatGPT正在从一个”聪明的对话工具”变成一个”了解你的个人助手”。它能记住你之前的偏好、搜索你之前的文档、甚至查看你的邮件内容来给出更个性化的回答。

    当然,隐私问题也随之而来。OpenAI这次的应对方案是:记忆来源透明化——ChatGPT会在所有模型中显示记忆来源,帮助用户了解答案的生成依据。而且用户可以删除过时的记忆来源或纠正错误答案。分享对话时,接收方也看不到记忆来源。我觉得这些措施算是做到了最基本的隐私保护,但对于更敏感的用户来说,可能还不够。

    GPT-4o退役的教训

    说到这里,不得不提一下GPT-4o退役的事。今年2月份GPT-4o正式弃用的时候,用户的反弹非常强烈。有些人甚至发起了请愿,把GPT-4o描述为”最好的朋友”。这听起来有点夸张,但我觉得它反映了一个真实的问题:当AI工具成为人们日常生活的一部分时,模型更迭就不只是一个技术决策了

    OpenAI这次吸取了教训,GPT-5.3将作为付费用户的可选项保留三个月,而不是直接一刀切地退役。我觉得这个做法更温和也更合理。

    我的看法

    GPT-5.5 Instant给我的整体感觉是:OpenAI正在把大模型从”很聪明的聊天机器人”推向”可靠的个人助手”。减少幻觉是为了让你敢在重要场景用,Gmail集成是为了让它更了解你,记忆来源透明化是为了让你放心用。

    大模型的竞赛已经从”谁的分数更高”变成了”谁更可靠、更实用”。这个转变我认为对整个行业来说是个好信号。毕竟,分数再高,如果普通用户不敢放心使用,那也只是实验室里的玩具而已。

  • agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory:让AI编程代理拥有持久记忆的神器

    agentmemory

    说实话,用Claude Code或Cursor写代码时,最头疼的就是每次开新会话都要重新解释项目结构、代码规范和之前的决策。CLAUDE.md写满了又容易过时,这个痛点真的太普遍了。

    直到我发现了agentmemory——这是一个专门为AI编程代理打造的持久记忆系统,能自动记住一切,彻底告别重复解释。


    🎯 项目简介

    agentmemory是GitHub上排名第一的AI编程代理持久记忆工具,基于真实基准测试构建。它能 silently 捕获编程代理的所有操作,将其压缩成可搜索的记忆,在下次会话时自动注入正确的上下文。

    目前狂揽 5.9k+ Stars,今日增长超过1000 Stars,堪称年度黑马项目!


    ⚙️ 安装要求和过程

    快速开始(30秒上手):

    1. 终端1:启动记忆服务器
      npx @agentmemory/agentmemory
    2. 终端2:体验演示
      npx @agentmemory/agentmemory demo
    3. 打开 http://localhost:3113 查看实时记忆构建过程

    👍 Claude Code 用户

    一行命令搞定:

    /plugin marketplace add rohitg00/agentmemory

    /plugin install agentmemory

    👨‍💻 其他代理(Cursor/Cline/Windsurf等)

    在MCP配置中添加:

    {
      "mcpServers": {
        "agentmemory": {
          "command": "npx",
          "args": ["-y", "@agentmemory/mcp"]
        }
      }
    }

    💡 核心功能

    • 🔍 智能检索:BM25 + 向量 + 知识图谱三路混合搜索,R@5准确率达95.2%
    • 💾 4层记忆架构:Working → Episodic → Semantic → Procedural,类比人类记忆的运作方式
    • 📌 自动捕获:12个hooks自动记录所有操作,零手动操作
    • 🔒 隐私优先:API密钥、私有标签在存储前自动剥离
    • 📈 极低成本:年省约170K tokens,年成本仅$10(用本地embeddings可降到$0)

    🖥️ 典型使用场景

    📈 场景1:长期项目维护

    当你要维护一个半年前的项目时,agentmemory能自动回忆:

    • 之前为什么选择这个技术方案
    • 哪些文件被频繁修改及原因
    • 代码规范和架构决策

    👥 场景2:团队协作

    多个开发者使用同一项目,agentmemory支持命名空间隔离的团队记忆,共享知识同时保留个人偏好。

    🔋 场景3:复杂调试

    遇到之前解决过的类似bug?记忆系统能追溯到原始观察,帮你快速定位。


    ⭐ 推荐理由

    用了快一个月了,最直观的感受是:每次开新会话,Claude真的能“想起来”上次在做什么。调试效率提升明显,因为不再需要反复解释项目背景。

    最让我惊喜的是隐私保护——它会自动过滤敏感信息,这点对于企业项目非常重要。

    另外,完全零外部依赖(仅需SQLite),安装和迁移都很轻量。


    📥 下载地址