/knowledge
我学过的,以及仍在学的。
对我在墨尔本大学学习的数据科学 —— 以及我教过的主题 —— 的详尽、第一性原理式讲解。从零写下每一篇,是我保持基本功扎实的方式。先打基础,再进阶;一次构建一个主题。
50 个中 50 个已上线
基础
16/16数学、统计、数据与系统的基础 —— 理学学士。
线性代数向量、矩阵、特征向量与 SVD
已上线概率论随机变量、分布与贝叶斯法则
已上线统计学估计、推断与假设检验
已上线微积分与最优化梯度、梯度下降与反向传播
已上线线性统计模型OLS、推断与诊断
已上线数据库系统关系模型、SQL 与索引
已上线人工智能搜索、逻辑与规划
已上线Web 信息技术HTTP、HTML/CSS/JS、REST API 与请求周期
已上线运筹学线性规划、可行域与单纯形法
已上线数据处理基础数据管线、整洁数据、清洗、重塑与连接
已上线应用数据科学项目生命周期、CRISP-DM、问题优先
已上线数据可视化与感知编码准确性、前注意线索与诚实图表
已上线特征工程与数据准备清洗、缩放、编码与避免数据泄露
已上线抽样与调查方法抽样框、概率抽样、偏差与加权
已上线SQL 与数据查询执行顺序、连接、窗口函数与 NULL
已上线模型评估与验证交叉验证、ROC/AUC 与选对指标
已上线进阶
20/20建立在基础之上 —— 数据科学硕士。
自然语言处理词元、TF-IDF、嵌入与 Transformer
已上线统计机器学习偏差-方差、正则化与泛化
已上线贝叶斯统计先验、后验与 MCMC
已上线主成分分析与降维协方差、特征向量与解释方差
已上线聚类k-均值、层次聚类与选择 k
已上线集群与云计算MPI、Spark 与大规模 HPC
已上线统计建模广义线性模型、逻辑与泊松回归、连接函数、AIC
已上线计算统计蒙特卡洛、自助法、置换检验与 EM
已上线高级数据库系统查询优化、MVCC、分布式与列式存储
已上线工作中的科学传播为决策汇报:先给出建议
已上线时间序列分析趋势、季节性、ARIMA 与诚实预测
已上线因果推断与 A/B 测试反事实、随机对照试验、混杂与双重差分
已上线深度学习与神经网络神经元、反向传播、梯度下降、CNN 到 Transformer
已上线强化学习奖励、MDP、贝尔曼方程、Q 学习与奖励作弊
已上线集成方法与梯度提升装袋、随机森林、提升与 XGBoost
已上线推荐系统协同过滤、矩阵分解与冷启动
已上线生存分析删失、Kaplan-Meier 与 Cox 风险比
已上线信息检索与搜索倒排索引、BM25、稠密与混合检索
已上线大语言模型下一词元预测、RLHF、幻觉与 RAG
已上线主题建模LDA、无标签主题发现与主题数选择
已上线实践应用
12/12我当下的工作——应用于政府数据分析。
商业智能与仪表盘Power BI、星型模型、一页一问
已上线地理空间分析与 GIS空间连接、分级统计图、比率、MAUP
已上线情报分析与 OSINT情报周期、ACH、信源评级、偏见
已上线数据治理、隐私与伦理FAIR、隐私、访问控制、公平、血缘
已上线异常检测离群点、孤立森林与告警疲劳权衡
已上线网络与图分析中心性、桥接者、社群与关系分析
已上线可复现性与分析管线版本控制、环境、RAP 与数据血缘
已上线MLOps 与模型监控部署、漂移、再训练循环与偏斜
已上线可解释 AI 与可解释性SHAP、LIME、玻璃箱模型与可辩护决策
已上线机器学习的公平性与偏见代理变量、公平性指标与不可能定理
已上线差分隐私重识别、epsilon、校准噪声与可用性
已上线知识图谱三元组、本体、实体消解与 GraphRAG
已上线教学
2/2我教过或指导过的主题 —— 从讲台另一侧写下。