[2024-09-28] Скрипты обучения LLM (impruver)
TIP! Right-click and select "Save link as..." to download.
Если очень кратко, вчера я занимался доведением до ума проекта impruver, в частности в нём были проблемы с генератором датасета типа чат, с тем как хранить конфигурацию и с тем работают скрипты тренировки.
В генераторе датасетов типа чат удалось решить ряд проблем связанных с токенизацией и поправить интеграционные тесты.
- https://github.com/EvilFreelancer/impruver/blob/main/impruver/dataset/chat_dataset.py
- https://github.com/EvilFreelancer/impruver/blob/main/tests/impruver/dataset/test_chat_dataset.py
Следом была реализованна базовая конфигурация, структура которой похожа на то, что реализовано в torchtune.
- https://github.com/EvilFreelancer/impruver/blob/main/configs/rugpt3small_based_on_gpt2.yaml
- https://github.com/pytorch/torchtune/blob/main/recipes/configs/llama3_1/8B_full_single_device.yaml
После чего был реализован скрипт предобработки датасета, вытягивающий данные из HuggingFace и преобразующий их.
- https://github.com/EvilFreelancer/impruver/blob/main/compose_dataset.py
После чего внесены правки в скрипт обучения через трансформеры, оригинальная версию которого была позаимствованна из проекта Saiga.
- https://github.com/EvilFreelancer/impruver/blob/main/train_transformers.py
- https://github.com/IlyaGusev/saiga/blob/main/src/train_transformers.py
Градиенты спускаются...
Сделать пожертвование:
- https://www.donationalerts.ru/r/evilfreelancer
- https://pay.cloudtips.ru/p/937f48ac
Ссылки:
- https://t.me/evilfreelancer
- https://github.com/EvilFreelancer
- https://www.twitch.tv/evilfreelancer