Skip to content

hantang/python-ciku

Repository files navigation

Ciku (IME-Utils)

GitHub stars GitHub release GitHub repo size GitHub license

中文输入法词库文件(细胞词库)解析工具。

Chinese IME ciku (aka word list / lexicon file) parsing tool.

支持:

  • 搜狗拼音(.scel
  • 百度拼音(.bdict)、百度输入法手机版(.bcd
  • QQ 拼音(.qcel)、QQ 拼音旧版(6.0 以下词库,.qpyd
  • 华宇拼音(紫光输入法)(.uwl

使用

  • 程序调用:
# 安装
# pip install ciku # ime-utils
# uv pip install -e . # 本地安装(Editable packages)

# 用例:
from ciku import SogouParser, BaiduParser

parser = BaiduParser()
files = [
    "医学词汇.bdict",
    "电影明星.bdict",
    "体操基本术语.bdict",
]

for file in files:
    save_file = f"out-{file}.txt"
    if parser.parse(file):
        parser.save_data(save_file, keep_error=False)
        result = parser.export_data()
  • 命令行调用
# 或者 python -m ciku -f file-names -o output

# 指定多个文件
ciku -f file-name1,file-name2 -o output
# 指定目录,-e / --keep-error 保留解析异常词语, -r / --recursive 目录递归检索文件
ciku -d file-dir -o text -e -r

开发

# 安装uv <https://docs.astral.sh/uv/>

# 开发环境
uv sync # --dev --all-extras # --locked

# 提交前检查语法等
uvx ruff check .
uvx mypy .

# 构建
uv build

相关

About

中文输入法词库文件(细胞词库 .scel/.bdict/.qcel等)解析工具

Topics

Resources

License

Stars

Watchers

Forks

Contributors

Languages