中文输入法词库文件(细胞词库)解析工具。
Chinese IME ciku (aka word list / lexicon file) parsing tool.
支持:
- 搜狗拼音(
.scel) - 百度拼音(
.bdict)、百度输入法手机版(.bcd) - QQ 拼音(
.qcel)、QQ 拼音旧版(6.0 以下词库,.qpyd) - 华宇拼音(紫光输入法)(
.uwl)
- 程序调用:
# 安装
# pip install ciku # ime-utils
# uv pip install -e . # 本地安装(Editable packages)
# 用例:
from ciku import SogouParser, BaiduParser
parser = BaiduParser()
files = [
"医学词汇.bdict",
"电影明星.bdict",
"体操基本术语.bdict",
]
for file in files:
save_file = f"out-{file}.txt"
if parser.parse(file):
parser.save_data(save_file, keep_error=False)
result = parser.export_data()- 命令行调用
# 或者 python -m ciku -f file-names -o output
# 指定多个文件
ciku -f file-name1,file-name2 -o output
# 指定目录,-e / --keep-error 保留解析异常词语, -r / --recursive 目录递归检索文件
ciku -d file-dir -o text -e -r# 安装uv <https://docs.astral.sh/uv/>
# 开发环境
uv sync # --dev --all-extras # --locked
# 提交前检查语法等
uvx ruff check .
uvx mypy .
# 构建
uv build