技术博客

算法

请写一篇通俗易懂不废话的博客，主题是 【 cc-connect 完整使用指南 】

请写一篇通俗易懂不废话的博客，深入浅出的介绍上述知识，格式符合写作规范

你是一个专业的技术大牛，深耕【AI、算法、机器学习】领域多年，十分了解最新研究进展和经典方法，请以【Bradley-Terry (BT) 模型】为主题，撰写一篇内容详实，知识严谨的中文技术博客。可以参考的方面包括但不限于：定义、发展、原理介绍、数学推导和性质、适用场景、使用方法，经验、最新进展、代码实现、额外推荐学习资源等，合理组织文章内容顺序和架构。

注意输出格式请遵循以下规则：
1. 如果需要使用LaTeX语法撰写公式，请遵循Obsidian编辑器的markdown实现，行内公式使用$…$包裹，行间公式使用$$…$$包裹，表达式和$符号之间不要留空格；
2. 注意引用网页链接的话，使用[]()语法添加链接；
3. 一级子标题使用一级标题语法#，以此类推，标题不添加序号。
4. 整体输出不需要添加到代码块中。
5. 在合适的地方使用html语法避免格式解析误解；比如在生成表格时，要显示`|`，就应该使用<code>&#124;</code>这样的写法，避免|符号被解读为单元格分格符号。

文本规范化

保持原文内容，格式化这篇文章中的全部公式格式，遵循Obsidian编辑器的markdown实现，行内公式使用$…$包裹，行间公式使用$$…$$包裹，表达式和$符号之间不要留空格

润色

我要优化 skills/polish-note/SKILL.md , 请在原本的要求上融合以下要求/prompt:
你是一位一线技术开发者、深耕前沿AI、计算机技术、机器学习领域，逻辑严谨、语言简练风趣的理工科专家。
针对原有的内容和主题，进行文章润色，合理的增删，要求全程偏好自然流畅的口语化书面语，减少生硬的技术术语堆砌和模板化表述，最好少用“首先、其次、最后”“综上所述”等AI感极强的衔接词，极其克制的使用列表分点，除非有助于内容表达总结。文章需遵循清晰的MD格式，仅使用'# 一级标题、## 二级标题、### 三级标题'，不要滥用标题语法，避免过细级别的标题，标题应该简洁务实，不滥用修饰词，每个标题下的内容需详实具体，至少包含3-4个连贯段落，
可以灵活使用Obsidian官方支持的Callouts语法来强调内容，即在引用块的开头添加形如 [!info] [!note] [!tip] [!abstract] [!question] [!danger] [!example] 这样的注释即可，You can make a callout foldable by adding a plus (`+`) or a minus (`-`) directly after the type identifier.
内容上，既要讲清技术原理的核心逻辑（不用过于晦涩，兼顾入门者和有经验开发者），也要加入实际开发中的实操细节、踩坑经历和解决方案，比如具体的代码片段（标注语言，格式规范）、测试场景、问题排查过程，还要融入个人开发思考，比如为什么选择这种方案、相比其他方案的优势、实际项目中的应用效果，让内容有温度、有真实感，符合真实技术博客的调性。
整体结构建议：开篇用1-2段引入技术背景（比如项目中遇到的痛点、技术选型的契机），中间分2-3个二级标题展开核心内容（原理+实操+踩坑），结尾总结实践心得和未来优化方向，全文语言连贯，无割裂感，MD格式干净。

代码

请详细解释这段代码，其中复杂的技术或者数学原理也需要解释清楚，详细解释各部分代码的意义

数学

你是一个专业的技术大牛和教授，深耕【数学】领域多年，十分了解最新研究进展和经典方法，并且擅长讲解和教学。请以【散度定理】为主题，撰写一篇内容详实，知识严谨的【中文】技术博客。可以参考的方面包括但不限于：定义、发展、原理介绍、数学推导和性质、适用场景、使用方法，经验、最新进展、代码、额外推荐学习资源等，合理组织文章内容顺序和架构。

注意输出格式请遵循以下规则：
1. 如果需要使用LaTeX语法撰写公式，请遵循Obsidian编辑器的markdown实现，行内公式使用$…$包裹，行间公式使用$$…$$包裹，表达式和$符号之间不要留空格；
2. 注意引用网页链接的话，使用[]()语法添加链接；
3. 一级子标题使用一级标题语法#，以此类推，标题不添加序号。
4. 整体输出不需要添加到代码块中。

阅读论文

请仔细阅读并总结文献

请仔细阅读并总结文献的以下内容： - 研究问题 - 研究方法 - 主要结论 - 创新点

请仔细的总结其数据部分，如何构造和处理。请仔细总结模型能力

前端

你是一位顶级的 APP UI/UX 设计专家，现需根据以下产品需求创建 UI 方案，并直接生成可交付的 HTML 完整代码。你需要像一名经验丰富的设计师一样思考，运用 **HTML + Tailwind CSS + FontAwesome** 将产品需求无缝转化为 **像素级完美、高度仿真、可交互** 的多界面 HTML 原型。

为完成此任务，你需要：
1. **深度分析**：理解“显化”应用的核心理念，并将其融入设计语言。
2. **规划流程**：基于用户旅程地图，确保页面间的跳转逻辑清晰、体验流畅。
3. **专业设计**：完成所有核心界面的 UI/UX 设计，包括配色、排版、动效等。
4. **代码实现**：直接编写高质量、结构清晰的 HTML/CSS/JS 代码。

## 产品需求：
应用类型：帮助用户通过积极心态、专注和冥想实现个人目标（显化应用）

### 需求模块：
#### [功能模块1]

#### 核心用户旅程地图

#### 对设计师 (UI/UX Agent) 的界面原型参考说明和要求（这块可有可无）
- **整体风格**: **宁静、鼓舞人心、有呼吸感**。避免使用过于鲜艳、刺激的颜色。多使用渐变、柔和的光影效果。
- **主界面 (Dashboard)**:
- **信息焦点**: 当天的**宣言**应处于最显眼的位置。
- **强引导**: 应有清晰的卡片或按钮引导用户完成“感恩日记”。
- **弱化但可及**: “梦想板”的入口应清晰可见，但不必过分突出，用户在完成每日仪式后自然会想去查看。
- **梦想板创建**: 交互要像使用一款优雅的拼图或设计工具，而不是一个呆板的表单。给予用户充分的自由度和创造感。
- **字体与图标**: 使用优雅的衬线或手写体字体来传达温度感。图标应简洁、表意明确

写代码

请基于“   ”的方法，实现一个“   ”的机器学习算法。
可以使用GPU加速。
同时展示在训练集和测试集上的效果。合适的话，绘制混淆矩阵、PR曲线、ROC曲线等可视化结果。
要求规范的打印和保存训练结果，各种输出的图片、文本、模型等文件，应该放在同一个output_dir目录下,注意添加os.makedirs(output_dir, exist_ok=True)以保证路径存在。
注意有关plt的绘图，图片上不可以使用中文显示，因为没有中文字体。

t2v数据处理框架的相关开发

输入文件夹下，有多层文件结构（不固定是几层），但是最终数据的组织形式都是存放多组视频打包文件（一组是同名的tar文件和meta.jsonl文件，tar中包含多个mp4和同名的id文件）, meta.josnl中记录文件参数（key是文件名，也是唯一标识），其中一行的key字段和mp4文件同名）

我想实现重构数据集的脚本，重构后的数据集结构依旧是tar和同名meta.jsonl文件，但可以实现以下功能：

1. 支持设置wds_files_count（一个tar包中mp4的数量）或者wds_file_size（一个tar包的文件大小）或者wds_count（输出文件夹全部tar文件数量，可以先计算输出文件夹的大小，然后除以wds_count得到每个tar的大小，尽量让每个tar包都这么大），重构的数据集， 尽量确保满足要求
2. 支持打乱数据顺序功能；可以开启或关闭；但是应该考虑到数百万条数据的打乱，如何高效实现
3. 支持用户定义特定的规则，只有当meta.josnl中的记录满足特定的要求，才提取和保留这条数据；
4. 支持删除开关，如果打开，当原本tar包中的文件全部复制转移，这个tar文件和同名的meta.jsonl文件会被删除

  

相关的超参数设置可以通过config和句点语法获取，这个我已实现。

  

因为逻辑较为复杂，建议仔细思考，在合适的地方使用生产者-消费者模型，构建合理的任务队列和结果队列，并且使用多进程提升处理速度，以适应百万条视频级别（几TB）的数据集重构。  
  
请细化代码设计方案，优化不合理的设计并写清楚功能的具体实现。请给我完整的代码。  
  
在已有代码的基础上，注意buffer也应该使用多进程来构建。可以是生产者-消费者/生产者-消费者这样的流程：  
consumer的产生的信息相当于中间的生产者，打包进程相当于消费者

领域检索

你是一位[ 人工智能机器视觉 ]领域的资深研究员，请基于【2020年以来】的最新研究，撰写一篇关于 【视频插帧 Video Frame Interpolation】 的中文学术综述。
需要包含主要技术原理和最新的前沿进展。优先引用Nature/Science/Cell或CCF-A类会议的文献，排除非同行评审内容。

你是一位[ 人工智能在医疗诊断 ]领域的首席科学家。请撰写一篇面向学术期刊的综述，全面涵盖[ 2010年以来 ]该领域的研究进展。重点包括：
1. 技术分类：医学影像分析、病理预测、药物研发中的AI模型；
2. 前沿突破：生成式AI（如Diffusion模型）、联邦学习的应用；
3. 现存挑战：数据隐私、模型可解释性、临床转化障碍。
要求：引用≥10篇顶刊文献（标注PMID），对比3类技术的优缺点（表格呈现），并提出未来5年研究方向。

论文撰写

提炼

请用中文总结提炼以上内容为一段简练的话，清楚描述其工作，适合文献综述的风格，较高完成度。忠于原始内容。遵循严格的Latex语法，注意%符号前面需要加上转义符号%

继续提炼重点，几句话说清楚工作内容，适合文献综述的风格

转写

帮我转写润色这段话，不要改变原本段落结构，保持句子整体语义和学术连贯性。按照段落和逻辑词链接，严谨成熟的论文风格。完美的latex格式。

帮我转写润色这段话，保持句子整体语义和学术连贯性。按照段落和逻辑词链接，严谨成熟的论文风格。完美的latex格式。

帮我转写这段话，保持句子整体语义和学术连贯性，使其更加贴合真实，具有可行性。段落内可以采用总-分-总等结构化的表述，尽量不要使用序号分点排列。遵循严格的Latex语法。

帮我重写润色硕士毕业论文的这部分内容，完成未完成的部分，保持整体语义和学术连贯性，审核内容的合理性和可行性，修改不可能或者矛盾的部分。

帮我重写润色硕士毕业论文的这部分内容，完成未完成的部分，保持整体语义和学术连贯性，忠于原本含义。审核内容的合理性和可行性，修改不可能或者矛盾的部分。

必要的话可以适当调整顺序和结构，使之更加有逻辑性，段落之间使用逻辑词连接，严谨的论文风格。
段落内可以采用总-分-总等结构化的表述，尽量不要使用序号分点排列。如果一定要分点叙述，不要使用\item等指令，只是在每点开始前写上标号（1）（2）（3）……即可，写成一段。
遵循严格的Latex语法，注意%符号前面需要加上转义符号%, 行间公式使用\equation环境，注意行内公式使用$…$包裹。
如果需要绘图，仔细推理，思考绘图元素之间的关系，合理布局，格式不要出错，不要超出页面宽度。

构建多图Prompt

你是一个专业的大模型Prompt优化助手。帮我润色细化prompt，这个prompt的使用场景是指导多图生成，即指导模型一次性的产出一组相关的图，比如步骤介绍、主题设计、故事梗概等，你需要改写prompt，保证：

prompt的需求必须明确，具体到人名（可以虚构）、详细的用途、要求等
不能出现真实的人物、影视人物、作品名字等，应该去敏替换
格式应该是一段开头的概述，然后对要生成的每张图的详细描述
合理规划，扩充或者精简需求，应该保证要生成的图片在6张以下
风格是用户输入的风格，不能是固定死板的格式，贴近用户需求
prompt中不要出现空行，不需要刻意精简字数

❯ @/Users/benjamin/Projects/local_work/api/多图生成benchmark-v1.xlsx 对这个promt_ch列优化,结果写到这个文件中,追加一列 promt_ch_v1 处理的prompt是:你是一个专业的大模型Prompt优化助手。帮我润色细化prompt，这个prompt的使用场景是指导多图生成，即指导模型一次性的产出一组相关的图，比如步骤介绍、主题设计、故事梗概等，你需要改写prompt，保证：

prompt的需求必须明确，具体到人名（可以虚构）、详细的用途、要求等
不能出现真实的人物、影视人物、作品名字等，应该去敏替换
格式应该是一段开头的概述，然后对要生成的每张图的详细描述
合理规划，扩充或者精简需求，应该保证要生成的图片在6张以下
风格是用户输入的风格，不能是固定死板的格式，贴近用户需求
prompt中不要出现空行，不需要刻意精简字数注意要使用 GEMINI_3_1_PRO_PREVIEW_URL GEMINI_3_1_PRO_PREVIEW_API_KEY (@api/my_api_key.py), 基于api/vlm_api.py设计一个异步asyncio脚本(默认20并行)

请仔细思考，拆分步骤，对每个步骤进行细致的分析和构图，详细描述画面内容、物体关系等要素，产出每张图片的生成的指导prompt，

请基于以下要求生图，注意和这些图片的主体保持一致

请再对@/Users/benjamin/Projects/local_work/api/多图生成benchmark-v1.xlsx中的prompt_ch_v1做进一步的处理优化

一般的Prompt：检查Prompt，开头出现的人名删除，应该更加符合用户输入的风格，直接使用”我“或者说清楚目标/职业即可，不需要编造出人名。整理内容，主要的概括描述和后面的每张图片的具体描述分开，用json格式返回： {“main_caption”:"", “img1_caption”:"",,,}

但是下面这两类（基于task_type字段判断）需要使用不同的Prompt 漫画：仔细检查开头的故事概述部分是否过于简单？应该详细到可以包含全部画面构成的情节。每页漫画的描述也应该更加细致的设计布局，需要描述清楚这一页有几格漫画，怎么分格的，每格漫画内容是什么？格子大小？为了画面表现的不规则分格、人物突破格子这种设计细节也应该详细描述。如果故事情节过于简单不足以支撑6页内的漫画，可以适当延长情节。整理内容，主要的概括描述和后面的每张图片的具体描述分开，main_caption的结尾不要说”下面是每张图的具体描述“这种话，应该直接结束，相当于用户的输入只有 main_caption 这部分，后面的 img{}_caption 是模型思考的结果。用json格式返回： {“main_caption”:"", “img1_caption”:"",,,}

儿童绘本：仔细检查开头的故事概述部分是否过于简单？应该详细到可以包含全部画面构成的情节。每页绘本中如果应该配字，也应该详细说明配字内容和位置，不能全部生成只有图画而没有文字解说，要像”儿童绘本”的风格！整理内容，主要的概括描述和后面的每张图片的具体描述分开，main_caption的结尾不要说”下面是每张图的具体描述“这种话，应该直接结束，相当于用户的输入只有 main_caption 这部分，后面的 img{}_caption 是模型思考的结果。用json格式返回： {“main_caption”:"", “img1_caption”:"",,,}

处理结果保存规则——在最左边的空列开始，保存main_caption、img1_caption、img2_caption,,,img6_caption 这些字段

/oh-my-claudecode:team 3:executor ralph “仔细规划,实现以上需求,可以对现有的数据集进行训练集的验证集测试集的划分,能兼容已有的代码和旧的逻辑,如果改动较大,我建议新建文件放新的类/行为,不要污染原始的框架. 实现代码后需要进行功能测试,保证数据集划分,训练中online推理这些功能是正常的”

注意现在进程运行在集群,本地开发机只是和集群共用一个文件系统.

知识花园

探索

LLM指令 prompt