Workbuddy下文献快速通读Skill:太乙文献真人
Workbuddy下文献快速通读Skill:
太乙文献真人
作者:贝叔 | 且来山笔记
你有没有遇到过这种情况——
一篇 Nature 论文火了,朋友圈在转,群里在讨论;但开原文,39 页正文 + 补充材料 + 方法附录,你不知道从哪读起。等等,可能「不知道从哪读起」都是幸福的,因为你根本拿不到文章原文。
然后你去找中文解读。官媒的,说「科学家取得重大突破」但找不到是什么赛道的突破;产业媒体的,说「这个赛道即将爆发」但不告诉你突破的底层逻辑是什么;课题组官号的,全是实验方法细节但你更想知道这个东西到底能创造什么价值。
每篇解读都说了一些,似乎又都没说全,你想了解的事情总是隔着一层纱。单篇解读文章天然有它的视角,也有它的盲区,各有各的精彩各有各的无奈。
一篇文献,它的工作零散的分布在解读文章中,就像哪吒散落的魂魄;太乙文献真人,以多源交叉验证为术,为文献再铸主体,就是为文献「找不到、读不懂、没讨论」而打造。
所以它是什么
太乙文献真人,是一个跑在 WorkBuddy 上的 Skill。
名字来自太乙真人——哪吒的肉身被毁,太乙以莲花重新塑形,还哪吒一个完整的身。文献解读也是一样:原始论文是一具完整的「身」,但每一篇解读文章只捕捉到了它的某一个侧面。太乙文献真人要做的事,就是把那些散落的解读重新拼凑起来,尽可能还原出那具完整的「身」。
核心就八个字:多源验证,六维还原。
它不是翻译工具,不是摘要生成器。它是一个工程引擎——从不同人写的解读文章中,拼凑出论文原文的完整画面,还附带解读者的观点。
先看效果
以 Nature 最近发表的 RFdiffusion 抗体从头设计论文为例(Bennett et al., 2025)。
系统搜索到了 9 篇中文解读,来自 DrugAI(腾讯云)、ScienceAI(搜狐)、CSDN(weixin_29197699)、HyperAI超神经(SegmentFault)、澎湃新闻、科学网、Baker Lab 官方博客等信源。然后输出了一份报告:
摘要——论文摘要的精准中译(以摘要为基准核验过),附三个信源核心观点(各一句话,不废话)
维度一:研究背景——这篇论文是要解决什么问题?它在领域里的定位是什么?这些全部从多信源还原,不是解读文章的「拓展理解」。
维度二:研究方法——RFdiffusion 的技术演进路径(RoseTTAFold→RFdiffusion1.0→动态约束版→本文多模态融合版)、六步设计流程、实验验证策略……用结构化表格呈现,一目了然。
维度三:实验验证——流感 VHH 主链 RMSD 1.45 Å、CDR3 0.8 Å、cryo-EM 验证 5 个结构中 4 个完全吻合……关键数字全部标注信源出处和交叉验证情况。
维度四:未来方向——严格只放论文作者自己提出的方向,不混入解读文章的猜测。
维度五:批判分析——汇总各信源对论文的质疑点。所有观点均来自信源,不是太乙文献真人的观点。 比如 CSDN 指出的「每靶点需筛选约 9000 个设计才能获得可用结合物」、糖基化盲区讨论、验证方法可靠性等,均标注具体信源出处。
维度六:实用建议——从解读文章中提炼可操作洞察。同样仅提取信源中的既有建议,不生成 AI 自己的建议。
最后还有免责声明和信源列表(含作者/账号名,不是笼统的「CSDN」)。
你可以看出来,这份报告有一个严格的原则:
「文献的」和「解读的」严格分离。
研究背景、研究方法、实验数据、未来方向——这些是论文原文的内容,必须经过多个信源交叉验证才能写入报告。同一个数字出现在 2+ 个信源,才直接呈现;只出现在 1 个信源,标注「单信源」。
批判分析和实用建议——这些是解读文章的观点,不属于论文本身,单独归类,明确标注出处。
最全面的还原,最多元的观点,太乙文献真人直接解决拿不到文章原文、看不完文章内容、局限于自身观点的三重困难。
太乙文献真人是怎么做
感谢无数做文献解读的专家,他们的投入和分享,为我们更容易得获取新知识。太乙文献真人在吸纳解读文章内容的基础上,还做了四件事情,保证文献的真实还原度,还能不断做的更好。
第一:摘要核验,把牢方向
论文原文不一定拿到,但每篇论文都能获取摘要。摘要是论文的精华,也是还原原文的方向。太乙文献真人在合成报告之前,可以用摘要来核验三类问题:
摘要有、信源无 → 标注「信源信息缺口」,尽可能补上摘要中的关键信息
信源有、与摘要矛盾 → 以摘要为准,标注「信源可能不准确」
信源有、摘要未提 → 正常使用,但如涉及核心结论性声明,标注「信源独有,摘要未提及」
第二:AI不输出观点,只还原原文内容和解读者的观点
在AI时代,一手信息是最宝贵的。来自原始文献的信息,呈现了作者开创性工作的完整结构;来自解读者的批判分析,提供了真实多元的视角。太乙真人只提取信源里的信息和观点,不输出新的观点,这是对碳基人思考品味的尊重。
第三:记录信源解读者的画像,持续进化
太乙文献真人每一次还原,都对信源解读者的特点进行总结和记录,为下一次文献还原提供参考。在解读者生态中,同一个网络平台上,不同解读者的风格、深度、偏向可以完全不同。 太乙文献真人将信源画像的粒度下沉到作者/账号层面:
| 平台类型 | 画像粒度 | 示例 |
|---|---|---|
| 机构媒体(澎湃新闻、科技日报) | 机构为单位 | 「澎湃新闻」「科技日报」 |
| 品牌自媒体(DrugAI、ScienceAI、智药局) | 品牌/公众号为单位 | 「DrugAI」(腾讯云)「蓝极BlueArctic」(微信公众号) |
| 社区平台(CSDN、SegmentFault、知乎) | 作者/账号为单位 | 「weixin_29197699」(CSDN)「HyperAI超神经」(SegmentFault) |
同一个 CSDN 平台上的两个不同博主,在太乙里是两条独立的画像条目。而一个博主在不同平台上的镜像账号,也只会记录一条。
第四:尊重信源的系统性偏向,避免算法性补偿
科技解读信源的生态,天然存在几种系统性偏向,信源生态的系统性偏向,算法无能为力。 太乙文献真人在报告的免责声明中承认系统性偏向的存在,还原的疏漏在所难免,读者看到报告时,还需要谨慎的二次判断,或者进行其它寻找文献原文的工作。
| 偏向类型 | 表现 |
|---|---|
| 正面叙事偏好 | 报道成功案例,忽略失败案例 |
| 量化松弛 | 用「高分」「优秀」替代精确数字 |
| 突破叙事 | 强调「首次」「突破」,淡化渐进性 |
| 评估方法遗漏 | 说方法能做什么,不说凭什么判断方法好坏 |
| 冷门文献来源少 | CNS大刊、大咖实验室的文献解读多,小刊小实验室文献解读少 |
信源搜寻:三级搜索管道
怎么确保能搜到所有的解读文章?太乙文献真人用了三层递进的搜索管道:
1. 搜狗微信搜索(weixin-search-mcp):搜微信公众号文章,覆盖中文科技解读的主要阵地
2. 通用搜索引擎反查(WebSearch):微信公众号的搜索引擎经常返回不完整的 URL,需要拿标题去通用搜索引擎反查真实链接
3. 正文提取(WebFetch):拿到信源的真实 URL 后提取完整正文
搜索关键词设置也有四套策略:
1. 原文精确匹配(期刊名 + 标题关键词 + 年份)
2. 作者驱动(通讯作者 + 学科领域)
3. 中文泛化(核心概念翻译)
4. 长尾试探(特定角度词)
加上标题去重、相关性初筛、噪音率预估,每一步都有明确的质量控制标准。
效果怎么样?多篇文章还原度能到80%
使用太乙文献真人对近期大热的三篇文章进行试验,对于还原得到的报告,请Kimi对比pdf原文进行分析,还原度均能达到80%,论文骨架和主要结论均能得到很好还原。
怎么用
如果你已经装了 WorkBuddy:
方式一(推荐):直接下载解压
下载 太乙 v1.2.0,解压到 WorkBuddy 的 skills 目录:
Windows: C:\Users\你的用户名\.workbuddy\skills\
macOS/Linux: ~/.workbuddy/skills/
然后在 WorkBuddy 里输入 /reload skills。
方式二:命令行安装
git clone https://github.com/pygan/wechat-paper-synthesizer.git \
~/.workbuddy/skills/wechat-paper-synthesizer
# 重新加载
/reload skills
需要依赖 weixin-search-mcp(v0.2.1+)、WebSearch、WebFetch 三个 MCP 服务。
装好之后,直接对 WorkBuddy 说:
用太乙分析这篇论文:Bennett et al., Nature 2025, “Atomically accurate de novo design of antibodies with RFdiffusion”
或者丢一个 DOI:
用太乙分析 https://doi.org/10.1038/s41586-025-09721-5
甚至可以直接把论文截图拖进去让 AI 识别。
诚实的局限性
1. 只覆盖中文解读。 英文信源(Medium、Twitter/X、Substack、博客)暂时还没接入。很多前沿论文的第一波深度解读其实是用英文写的。
2. 噪音率问题。 如果论文是 AI + 蛋白质这种热门交叉方向,搜索噪音率可能超过 60-80%。目前只用标题关键词过滤,还没上语义匹配。
3. 信源冷启动。 刚安装的时候,信源画像库是空的,需要跑 3-5 篇论文才能积累够。
4. 科技解读生态本身的偏向。 这不是太乙的 bug,是科技信源生态的特质——正面叙事偏好、量化松弛、失败案例缺失。系统会在免责声明里坦诚这个事实,而不是假装能用算法补偿。
5. 没有 PDF 原文?报告也不是 100%。 这是必然的——解读文章天然有信息损失。报告能做的是把那 80-85% 的核心信息尽可能准确地拼回来。摘要核验能把偏离控制在更小的范围内。
再次感谢丰富的文献解读生态,开放让知识更有价值!太乙文献真人不是一个创造新东西的产品,它是一个实用工具,帮你能够自由的获取最新论文的精华,与学术大咖们对话。
如果你也有这样的需求,感兴趣的话可以试试。如果有任何让太乙文献真人更厉害的想法,欢迎讨论。
项目地址:https://github.com/pygan/wechat-paper-synthesizer
直链下载:https://github.com/pygan/wechat-paper-synthesizer/archive/refs/tags/V1.2.0.zip
作者:贝叔 | 且来山笔记
太乙真人重塑哪吒肉身,太乙文献真人再铸文献主体。