关于博客主

个人简介

傅祉珏，英文名：Fu Tszkok，网名/昵称：Billyfu / Billiefu，现年22岁，籍贯香港特别行政区。目前为中山大学计算机学院计算机科学与技术系大四在读学生，即将升入本院攻读硕士研究生学位。

校园履历与荣誉奖项
在中山大学求学期间，本人积极参与学生事务与公共服务工作。曾担任中山大学第五十届学生代表大会常任代表、第五十二届学生代表大会计算机学院代表团团长。在“传帮带”迎新工作中，先后担任2024届学长团成员及2025届学长团团长，为新生提供扎实的学术指导与发展支持。同时，在担任班级学习委员期间，因履职尽责荣获“优秀学生骨干”称号。学业方面，曾获2024-2025学年教育部港澳及华侨学生奖学金二等奖、2024-2025学年中山大学优秀学生奖学金三等奖。

科研聚焦与场景适配
本研究聚焦于强化学习及其在医学人工智能（尤其是医学影像分析）领域的前沿应用。研究过程中发现，不存在绝对通用的算法，因此着重开展不同算法在各类复杂场景中的适配性研究，并进行独立实验验证。在将强化学习应用于特定任务时，致力于探索并实施具有针对性的模型调整策略。特别是在医学及相关交叉领域场景下，注重将物理先验或医学先验知识（如最优传输先验等）深度融入决策网络设计，以辅助并精准引导智能体高效、可靠地完成复杂的诊疗与分析任务。

跨界探索与多元视角
科研之外，我享受跨界探索带来的思维碰撞。在音乐领域，我掌握钢琴、爵士鼓等多种乐器的演奏，并作为酷狗音乐签约音乐人涉猎音乐创作。在游戏世界，深耕《我的世界》跑酷与速通挑战，目前正筹建 BillySMP 服务器，期待与志同道合的玩家共同探索。此外，我还在 Bilibili 平台运营自媒体账号，分享科普知识与生活片段。这些丰富的跨界实践不仅拓宽了我的视野，也为我的学术探索注入了意想不到的创新灵感。

欢迎志同道合同学与我交流探讨，可通过以下方式与我联系：

电子邮箱：futszkok@gmail.com
工作邮箱：futk@mail2.sysu.edu.cn
联系地址：广东省广州市番禺区小谷围街道外环东路132号中山大学东校区行政会议中心B栋 B401室

研究领域

强化学习及其应用，医学计算机辅助智能体，医学影像分析。

教育背景

2021.09-2026.06 中山大学计算机科学与技术本科 Advisor：陆遥教授

科研（项目）经历

基于强化学习的医学影像配准方法研究项目负责人 2024.09-2026.04

医学影像配准是临床手术导航与放疗靶区规划的核心前置技术。然而，面对大幅度初始空间错位，传统的迭代优化算法（如 SimpleITK 与 Elastix）极易陷入局部极小值，进而导致配准发散；同时，其单次计算耗时通常达秒级甚至分钟级，难以满足术中严苛的实时性临床需求。针对上述技术瓶颈，本研究创新性地将二维单模态刚性配准任务严密建模为连续空间下的马尔可夫决策过程（MDP）。通过引入深度强化学习范式，赋予智能体自主纠偏与全局寻优的动态决策能力，从而有效攻克了复杂解剖结构下大规模形变对齐的业界难题。

核心职责：在研究推进过程中，本工作独立主导了该配准框架的端到端环境搭建及所有核心实验的落地实施。区别于泛泛的理论推演，研究重心深度聚焦于医学影像场景的特殊性与算法的实际工程适配，通过深入剖析解剖结构的几何拓扑属性，将物理先验知识显式地融入智能体的决策逻辑之中。针对强化学习训练初期极易出现的策略发散以及状态部分可观测（POMDP）等底层顽疾，研究中独立设计并全程执行了多阶段的渐进式训练实验与网络架构的精细调整，以扎实的独立实验验证确保了算法在复杂医疗环境下的绝对可靠性与策略收敛性。
技术路线：本项目的技术架构围绕融合物理先验的“几何-语义”双流决策网络（Actor）展开。具体而言，算法利用最优传输（OT）理论提取解剖结构的质心作为平移先验，并将旋转与缩放等高阶形变交由语义网络进行残差预测，以此大幅收窄高维动作的探索空间。面对状态部分可观测的挑战，项目构建了基于 Transformer 自注意力与因果掩码机制的时序价值评估网络（Critic）。该网络通过对历史行为轨迹的深度编码，精准捕获长程因果一致性，从而严厉惩罚破坏全局拓扑的投机性试错动作。在训练策略层面，为克服强化学习常见的冷启动与价值高估陷阱，研究实施了包含“自监督预训练、价值网络热身以及融合行为克隆（BC）正则化的联合微调”在内的三阶段课程学习机制，并辅以目标策略平滑与 OU 惯性噪声，从底层机制上保障了医疗场景下策略演化的稳定收敛。
项目成效：在单模态二维 CT 数据集上的严格基准测试表明，本框架展现出了卓越的性能优势。在执行效率方面，模型成功跨越了 0.5 秒的实时性门槛，将单次配准的平均推理时间极速压缩至 0.3799 秒，相比 Elastix（4.9741 秒）等传统算法实现了数量级的跨越式提升。在配准精度方面，即使在应对大幅度随机初始空间错位与像素噪声的严重干扰时，本模型依然保持了极高的鲁棒性，其互信息（MI=0.8101）与归一化互相关（NCC=0.9602）指标均高度媲美现有的临床金标准软件。这一系列详实的实验数据，充分印证了强化学习范式在解决复杂医疗图像配准任务中所蕴含的巨大工程落地潜力。

基于强化学习与博弈论的骗子酒馆策略研究项目负责人 2025.11-2026.01

非完全信息博弈中的策略寻优始终是人工智能领域亟待攻克的核心挑战之一。在如《骗子酒馆》（Liar’s Bar）等带有“俄罗斯轮盘赌”式不可逆淘汰机制的极端生存博弈场景中，传统零和博弈模型往往难以在欺骗收益与生存概率之间取得有效平衡。针对此类环境所展现出的高随机性与非平稳特征，本项目将该游戏严密地数学建模为部分可观测随机博弈（POSG）过程。在此理论基础上，研究创新性地提出了一种融合 Transformer 架构与近端策略优化（PPO）算法的深度强化学习框架，旨在通过复杂的环境交互与多方混战，演化出具备动态贝叶斯风险管理能力的理性智能体。

核心职责：在本项目的推进过程中，本工作主导了从博弈系统的数学建模到多智能体强化学习架构工程落地的全流程。秉持“算法需深度适配特定业务场景”的科研理念，研究并未机械套用常规的自我对弈（Self-play）范式，而是深入剖析了生存博弈环境下的动态风险权重。为此，研究中创新性地提出并设计了基于“人格塑造（Personality Shaping）”的复杂奖励工程机制。这一机制的成功引入，有效克服了传统多智能体强化学习训练中常见的策略同质化以及极易陷入局部纳什均衡等底层技术难题。
技术路线：在技术实现维度，本项目基于不对称的 Actor-Critic 架构构建了智能体的核心决策网络。该网络利用 Transformer 编码器深度挖掘对手历史行为序列中隐含的长程博弈依赖与欺骗模式，并结合多层感知机提取的当前静态局势特征，最终输出解耦的“质疑”与“出牌”双分支动作指令。在模型训练策略层面，研究系统设计了包含“同质化自我对弈”与“异质化混合对弈”的两阶段课程学习机制。该机制首先通过定制化的内在奖励函数，预训练出具备“激进欺骗”、“激进质疑”和“保守生存”等极端博弈特征的基线智能体群体以构建生态基础；随后，将无偏置的理性智能体置于此异质化对抗环境中进行深度演化。这种机制迫使智能体在面临极高死亡惩罚的严格约束下，能够充分利用信息优势，进行动态且精准的贝叶斯策略的自适应调整。
项目成效：详实的大规模蒙特卡洛模拟测试结果表明，本框架演化出的理性智能体展现出了远超单一特征对手的卓越鲁棒性与决策智慧。在量化数据方面，该理性智能体以 1.75 的平均生存得分及 66% 的策略成功率高居榜首，其综合表现显著优于激进欺骗者（1.09）与纯保守者（1.61）。进一步的实证定性分析揭示，该智能体已成功学会利用历史上下文信息动态推断对手的隐藏人格特征，并能够根据当前左轮手枪弹巢状态（即生存概率）灵活且自适应地在激进与避险策略之间进行切换。本项目的研究成果有力地证实了在非完全信息的极端生存博弈场景中，基于长程记忆与信息优势的动态风险管理策略具备压倒性的理论与实践优越性。

基于强化学习的法医物证多人身份鉴定问题研究项目负责人 2025.04-2025.06

法医物证鉴定在刑事侦查链路中发挥着至关重要的作用。然而，传统分析方法在处理多人混合样本的 STR（短串联重复序列）图谱时，长期面临等位基因筛选易受噪声干扰、混合比例估计精度不足以及联合推理缺乏统一理论机制等严峻挑战。针对上述行业技术痛点，本项目创新性地构建了法医物证领域的首个多智能体强化学习架构，旨在通过多算法协同工作机制，系统性地解决多贡献者身份识别中的核心决策难题。

核心职责：在研究推进过程中，本工作主导了面向法医学复杂场景的全流程强化学习建模与底层算法开发。具体而言，研究将高度复杂的 STR 图谱解析任务严密拆解为马尔可夫决策过程（MDP），并针对人数识别、比例估计、图谱去噪与基因型推断四大核心子任务，独立设计并训练了四个协同工作的强化学习智能体。此外，为应对法医物证分析中极端样本比例不平衡与高噪声环境的严峻挑战，研究中主导设计了融合多项非线性特征的动态奖励函数，成功攻克了多智能体协同训练过程中的模型发散难题。
技术路线：本项目采用多算法协同策略以实现端到端的智能分析。在人数推断任务中，采用引入分层加权奖励的 REINFORCE 算法进行离散分类，有效缓解了数据类别的极度不均衡问题；在贡献度分析任务中，通过 Soft Actor-Critic (SAC) 算法结合 JS 散度与均方误差（MSE），在连续动作空间下实现了极高精度的混合比例回归；在信号处理环节，设计了结合深度确定性策略梯度 (DDPG) 与优先级经验回放 (PER) 机制的智能体进行波形自适应降噪，并引入 L1/L2 正则化以最大限度地保留核心生物学特征；最终在身份推断环节，创新性地提出了一种融合蒙特卡洛树搜索（MCTS）与束搜索（Beam Search）的两阶段多证据链联合推理模型，利用策略网络高效引导高维基因型组合的最优匹配。
项目成效：该多智能体框架在各项核心任务中均展现出显著超越传统经验规则的优异性能。在量化指标方面，REINFORCE 智能体的人数识别峰值准确率达到 97.56%；SAC 模型在极端比例配置（如 1:9）下的预测准确率高达 92.3%，显著优于传统最大似然估计法的 78.5%；DDPG 降噪模型成功提升了 15.7% 的降噪稳定性；MCTS 联合推理机制在 2-3 人混合样本的基因型还原准确率分别高达 92.3% 和 85.1%。该研究成果不仅在理论上实现了多智能体协同的突破，更为法医物证鉴定领域提供了一条全新的、具备极高鲁棒性的智能化技术落地路径。

全屋智能设备权限管理与多用户共享系统（YatSpark）项目负责人 2025.04-2025.06

物联网（IoT）技术的广泛普及正推动全屋智能由单一实体控制向多用户协同场景演进。然而，现阶段的主流智能家居系统普遍存在权限控制机制单一、共享逻辑边界模糊以及操作行为溯源困难等技术痛点。针对上述安全与管理缺陷，本项目提出并研发了 YatSpark 系统。该系统致力于通过引入多角色身份认证框架、设备权限的细粒度分配机制以及严格的操作日志审计策略，在高校宿舍、酒店公寓等复杂群居场景中，构建一个高度安全、访问可控且具备防越权能力的多用户智能家居共享环境。

核心职责：在项目的研发生命周期中，本工作主导了从系统需求分析、顶层架构设计到前后端开发的全流程工程实践。为实现复杂场景下的精准鉴权，研究中创新性地设计了“房间-模板-个人权限”三级鉴权模型以及适配的数据库实体映射方案，并独立完成了核心拦截器鉴权逻辑与设备状态冲突处理机制的代码级构建。此外，为保障系统在真实环境下的高可用性，本工作全面统筹了基于测试驱动开发（TDD）的功能验收与性能基准测试，从工程链路的末端确保了系统在面对高并发访问请求时，仍能维持卓越的运行稳定性与响应效率。
技术路线：在技术路线与系统架构层面，本项目采用前后端解耦的架构模式以实现跨平台的统一协同。客户端利用跨平台框架达成“一次编写，多端（网页、小程序、App）部署”的适配目标，并通过构建条件编译机制有效保障了异构终端交互体验的一致性；服务端则开发了标准化的 RESTful API 接口，并深度融合无状态令牌认证机制以支撑高安全级别的高并发鉴权流。在核心权限模型的设计上，系统摒弃了传统粗放的全局控制范式，实现了精确至“具体物理设备-特定指令操作（如温度调控、照度设定）”的微观颗粒度白名单授权逻辑。针对多用户并发控制与数据一致性难题，底层业务逻辑层实现了全局事务的统一接管，并自主设计了设备状态版本校验机制，从内核层面彻底消除了多并发实体同时操控单一设备时极易引发的指令竞争冲突与状态覆写风险。
项目成效：严谨的系统功能与性能基准测试结果表明，YatSpark 系统展现出了极佳的运行稳定性。涵盖权限隔离、精细授权、电器操作及分级日志审计等在内的核心模块，均已完整通过 TDD 测试用例的严苛验证。在极限压力测试环境下，服务端的 CPU 资源占用率稳定维持在 10% 以下，内存峰值消耗被严格控制在 50MB 阈值内，且全局平均响应时延未超过 1 秒。这一系列详实的工程数据充分证明，该系统能够完美满足多用户并发控制的实际部署需求，已具备极高可靠性的商业化上线转化条件。

智能家庭场景下隐私保护的视频异常行为检测算法研究项目负责人 2023.12-2024.12

智能家居监控设备的广泛普及使得家庭视频数据的隐私泄露风险日益凸显。传统安防监控系统在云端直接处理原始视频数据，极易引发严重的安全隐患；而纯边缘计算范式又常受限于本地硬件的算力瓶颈，难以独立支撑复杂的深度学习推理。针对这一业内技术矛盾，本项目旨在研究并开发一套“端云协同”的新型视频异常行为检测框架，以期在物理层面阻断敏感隐私外泄的前提下，实现高效、实时的家庭安防异常监控。

核心职责：在项目的推进过程中，本工作全面主导了端云协同整体技术路线的设计与底层软硬件架构的搭建。在核心技术攻坚阶段，研究重点聚焦于云端异常行为检测算法的开发与算力部署，独立完成了基于深度学习的时空特征建模与复杂网络训练。此外，本工作统筹协调了研发团队在树莓派硬件端进行视频流采集与边缘侧隐私模糊处理模块的开发，从工程全局视角确保了软硬件跨端通信链路的无缝集成与高效协同。
技术路线：在技术架构层面，本项目创新性地提出并实现了“边缘侧隐私脱敏，云端侧异常推理”的解耦机制。在边缘侧（基于树莓派硬件平台），引入 SSD（Single Shot MultiBox Detector）目标检测框架以高效锁定视频画面中的人形及其它隐私敏感区域，并利用动态高斯滤波技术实施物理级别的局部模糊遮蔽，从而确保上传至云端的数据流实现彻底脱敏；在云端服务器侧，研究构建了 CNN-LSTM 混合神经网络模型，首先通过 CNN 网络提取多帧图像的深层空间拓扑特征，随后利用 LSTM 网络建模视频序列间的长程时序因果动态，最终经由全连接层分类器进行高维映射，精准输出行为异常（如跌倒、非法入侵等）的概率判决。
项目成效：严谨的工程测试表明，本项目成功打通了涵盖硬件采集、边缘脱敏至云端推理的端到端闭环，构建了具备高可用性的智能安防原型系统。实验结果证实，该系统在精准执行异常报警任务的同时，有效化解了家庭安防需求与用户隐私保护之间的底层技术矛盾。此外，立足于严苛的工程落地标准，研究团队客观审视并分析了当前系统在极高帧率条件下的推理时延瓶颈及空间精确定位缺失等局限性，从而为该算法后续向边缘轻量化部署与商用级产品化演进沉淀了极具价值的优化路径与架构经验。