Срочная публикация научной статьи
+7 995 770 98 40
+7 995 202 54 42
info@journalpro.ru
Ниязова Барнонисо Наимджоновна
аспирант 4 курса,
Российский государственный университет имени Косыгина,
г. Москва
Аннотация: Цель данной статьи — провести сравнительный анализ производительности локального инференса крупных языковых моделей, оценить их применимость в задачах пользовательского интерфейса (UI) и автоматического тестирования, а также сформулировать рекомендации по выбору архитектур для запуска без подключения к внешним API. В основе анализа лежит опыт интеграции модели DeepSeek-R1 в систему генерации тест-кейсов UI/API на базе Playwright, с использованием среды MacBook на процессоре Apple M1 с поддержкой Metal Performance Shaders (MPS).
Ключевые слова: тестирование, инструменты тестирования, информационные технологии, веб-приложения.
В последние годы крупные языковые модели (Large Language Models, LLMs) стали краеугольным камнем современных систем искусственного интеллекта. Такие модели, как GPT-4, LLaMA, DeepSeek и их производные, демонстрируют высокую эффективность в задачах генерации, анализа текста, программирования и даже принятия решений. Однако широкое распространение LLM сопряжено с рядом вызовов, среди которых ключевыми являются: производительность при локальном запуске, требования к аппаратным ресурсам, ограничения памяти и применимость в прикладных задачах.
Обзор архитектур и требований
Современные языковые модели отличаются по следующим параметрам:
— Объём модели (число параметров): от 1B до 70B+
— Формат загрузки (FP32, BF16, INT4/8)
— Максимальная длина контекста
— Архитектура: Dense vs MoE (Mixture of Experts)
— Поддержка MPS, CUDA, ROCm, CPU
Таблица 1. Сравнение моделей по требованиям

Методика оценки
Для оценки производительности инференса была реализована система генерации шагов тест-кейсов с использованием LLM. Архитектура включает:
— Frontend (HTML) интерфейс для отображения плана тестирования
— Backend на FastAPI с маршрутом /generate-plan, обрабатывающим URL
— Модуль генерации generate_with_deepseek(prompt: str) для обращения к модели
— Вывод результатов в PDF/Excel и в UI
Результаты экспериментов
Эксперименты проводились на MacBook Pro с M1 Pro (32 ГБ RAM). В качестве модели использовался DeepSeek-R1-Distill-Qwen-1.5B, загруженный через transformers и AutoModelForCausalLM.
Таблица 2. Сравнение режимов

Пример запроса и генерации
Prompt: «Напиши подробные шаги и ожидания для теста на проверку клика по ссылке с текстом: ‘Контакты’»
Ответ (сгенерировано локально):
Шаг 1 — открыть главную страницу сайта
Шаг 2 — найти элемент «Контакты»
Шаг 3 — кликнуть по элементу
Шаг 4 — проверить, что URL изменился на «/contacts»
Шаг 5 — убедиться, что отображается заголовок «Контакты»
Ожидание: пользователь должен увидеть страницу с контактной информацией
Анализ применимости и ограничений
Когда локальный запуск оправдан
Локальный инференс крупных языковых моделей становится особенно актуален в следующих случаях:
1. Ограничение доступа к API: например, при разработке в условиях, когда HuggingFace или OpenAI API недоступны из-за географических или сетевых ограничений.
2. Снижение затрат: коммерческое использование API в высоконагруженных системах может обходиться в десятки тысяч рублей в месяц. Локальный запуск (единовременная настройка модели на сервере или ноутбуке) позволяет сократить расходы.
3. Повышенные требования к конфиденциальности: при обработке чувствительных данных (например, генерирование тестов по внутренним CRM или HR-системам) локальный запуск исключает утечку данных на внешние сервера.
4. Воспроизводимость результатов: в ряде исследований важно сохранять контроль над моделью, версией, seed и архитектурой. Это возможно только при локальном инференсе.
Ограничения локального запуска
Несмотря на плюсы, есть и ряд ограничений:
— Задержка старта (cold start): запуск моделей занимает до 30 секунд в зависимости от размера модели и количества VRAM.
— Поддержка железа: даже при наличии поддержки Metal (MPS) на macOS, не все модели могут эффективно работать. Например, некоторые архитектуры не оптимизированы под M1/M2.
— Ограничения по длине контекста: многие модели (например, GPT-2 или Qwen 1.5B) поддерживают контекст только до
Выводы
Локальный запуск LLM позволяет создать независимую, автономную систему генерации и валидации UI/API тестов. Он критически важен:
— в закрытых корпоративных сетях,
— при работе с NDA-проектами,
— для оптимизации затрат.
Тем не менее, локальный inference требует точной настройки, знания доступных архитектур (Qwen, DeepSeek, LLaMA) и наличия хотя бы
Главное о локальном инференсе
— Локальный запуск моделей работает — и стабильно на M1/M2, но только с оптимизированными версиями (Qwen, DeepSeek Distill, GPT-2/3).
— DeepSeek-R1-Distill-Qwen-1.5B — хороший баланс: <4 ГБ памяти, быстрый ответ, поддержка сложных шагов.
— Интеграция с тестирующим фреймворком Playwright позволяет автоматизировать UI-покрытие.
— Необходима проверка: не все модели поддерживают корректную генерацию шагов/ожиданий без fine-tuning.
— Формулы расчёта ресурсоёмкости и скорости позволяют подобрать правильную модель под железо.
Список источников:
1. Цзи-Цай Ян, Цзюнь-Лун Хуан, Фэн-Цзянь Ван, Уильям и Ч. Чу. Построение объектно-ориентированной архитектуры для тестирования веб-приложений. Журнал информационных наук и техники, январь 2016.
2. Цзи-Цай Ян, Цзюнь-Лун Хуан, Фэн-Цзянь Ван и Уильям К. Чу. Объектно-ориентированная архитектура, поддерживающая тестирование веб-приложений. Материалы
3. Филиппо Рикка и Паоло Тонелла. Анализ веб-сайта: Структура и эволюция. В материалах
4. Филиппо Рикка и Паоло Тонелла. Анализ и тестирование веб-приложений. В материалах
5. Филиппо Рикка и Паоло Тонелла. Процессы тестирования веб-приложений. Анналы разработки программного обеспечения,
6. Майкл Бенедикт, Джулиана Фрейре и Патрис Годфруа. Veriweb: В материалах
7. Себастьян Эльбаум, Срикант Карре и Грегг Ротермел. В ходе разбирательств