Enzoria 是这个仓库统一使用的项目名称。仓库主要用于酶相关序列、结构、文本三模态建模实验,以及 ESIBank 数据集上的功能二分类微调。
- 训练入口:
train_esi_function.py - 核心代码:
Enzoria/ - 数据目录:
dataset/ - 结果输出:
result/ - 论文资料:
论文/
当前训练脚本会顺序遍历 4 种数据划分:
all_splitenzyme_splitrandom_splitreaction_split
.
|-- train_esi_function.py
|-- dataset/
| |-- ESIbank/
| |-- PAIR/
| `-- PDBbind/
|-- Enzoria/
| |-- model/
| |-- demo/
| |-- scripts/
| |-- requirements.txt
| `-- weights/
|-- result/
|-- docs/plans/
`-- 论文/
建议使用 Python 3.10 和独立 conda 环境。
conda create -n enzoria python=3.10 -y
conda activate enzoria
pip install -r Enzoria/requirements.txt
pip install pandas numpy scipy matplotlib tqdm openpyxl如果你使用 GPU 版 FAISS,可以继续安装:
conda install pytorch::faiss-gpu=1.8.0 -y训练脚本默认从下面的目录读取模型权重:
Enzoria/weights/Enzoria_650M/
默认配置会查找:
esm2_t33_650M_UR50D/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext/foldseek_t30_150M/Enzoria_650M.pt
训练脚本默认读取:
dataset/ESIbank/processed_splits/
当前仓库中保存了四个划分压缩包,需要先解压到上面的目录:
dataset/ESIbank/all_split-20251014T071615Z-1-001.zipdataset/ESIbank/enzyme_split-20251014T071617Z-1-001.zipdataset/ESIbank/random_split-20251014T071619Z-1-001.zipdataset/ESIbank/reaction_split-20251014T071620Z-1-001.zip
解压后的结构应类似:
dataset/ESIbank/processed_splits/
|-- all_split/
|-- enzyme_split/
|-- random_split/
`-- reaction_split/
PowerShell 示例:
New-Item -ItemType Directory -Force -Path dataset/ESIbank/processed_splits
Expand-Archive dataset/ESIbank/all_split-20251014T071615Z-1-001.zip dataset/ESIbank/processed_splits -Force
Expand-Archive dataset/ESIbank/enzyme_split-20251014T071617Z-1-001.zip dataset/ESIbank/processed_splits -Force
Expand-Archive dataset/ESIbank/random_split-20251014T071619Z-1-001.zip dataset/ESIbank/processed_splits -Force
Expand-Archive dataset/ESIbank/reaction_split-20251014T071620Z-1-001.zip dataset/ESIbank/processed_splits -Forcepython train_esi_function.py默认配置会使用序列、结构、文本三种输入,并对四种 split 依次完成训练、验证和测试。
训练结果保存在:
result/<split_type>/run_<timestamp>/
常见输出包括:
logs/training_config.jsonlogs/batch_history.jsonlogs/epoch_history.jsonlogs/training_summary.jsoncheckpoints/best_model.ptplots/metrics_curves.png