НИУ ВШЭ адаптировал языковую модель для научных текстов и ускорил её работу

Исследователи НИУ ВШЭ завершили адаптацию крупной языковой модели, направленной на работу с научной терминологией на русском языке. Эта новая разработка предоставляет искусственному интеллекту возможность более точного анализа научно-технических текстов, при этом значительно увеличивая скорость обработки и снижая потребление памяти. Программа уже прошла государственную регистрацию, о чем сообщила пресс-служба образовательного учреждения «Газета.Ru».
Как подчеркивают ученые, многие популярные генеративные системы искусственного интеллекта, такие как OpenAI ChatGPT, обучаются в основном на данных на английском языке. Это создает потенциальный риск формирования своеобразной «монокультуры» в сфере искусственного интеллекта, где русскоязычная научная информация представлена в недостаточной степени.
Чтобы устранить данный недостаток, специалисты Института статистических исследований и экономики знаний ВШЭ дообучили открытую языковую модель на специализированном корпусе iFORA-QA. Этот корпус был собран вручную более чем 150 экспертами института на основе аналитических материалов, научных отчетов и документов, относящихся к науке, технологиям и инновациям.
После адаптации новая система начала более качественно отвечать на профессиональные вопросы, касающиеся научно-технической тематики. Скорость генерации текста увеличилась в 2,7 раза, а потребление памяти сократилось на 73% по сравнению с исходной мультиязычной моделью. Это дает возможность запускать искусственный интеллект на менее мощном и более доступном оборудовании.
«Универсальные языковые модели обладают обширными знаниями, но зачастую на поверхностном уровне. Нам требуется модель, которая понимает, о чем пишут российские ученые и инженеры», — объяснила Анастасия Малашина, главный аналитик проекта и научный сотрудник Центра стратегической аналитики и больших данных ИСИЭЗ ВШЭ.
В ближайшее время исследователи намерены разработать на основе языковой модели дополнительные инструменты. Одним из них станет «умный» поисковик, который будет формировать ответы с ссылками на научные источники, минимизируя риск так называемых «галлюцинаций» искусственного интеллекта. Второй инструмент — граф связей между данными, который поможет выявлять скрытые закономерности в научной информации.
Кроме того, разработчики стремятся научить систему работать с неполными данными и задавать пользователю уточняющие вопросы перед формированием ответа.
В перспективе все эти инструменты планируется объединить в единую мультиагентную систему для автоматизированного анализа научно-технической информации.
Читайте также: