Что мешает развитию NLP

4 открытых проблемы обработки естественного языка.

Нейросети сегодня могут говорить, писать, слушать и понимать, благодаря обработке естественного языка (NLP). Она извлекает значения из сообщений и структурирует их. Но нам все еще сложно найти общий язык с машинами. Исследователи работают над тем, чтобы компьютер мог поддерживать беседу, шутить и язвить.

Вместе с Data Scientist в YouScan и лектором курса Natural Language Processing from 0 to ‘native speaker’ Виталием Радченко разбираемся, какие проблемы нужно решить ученым, чтобы компьютер смог понять человека.

#1. Проблема семантики: в поисках смысла

Язык синонимичен и многозначен. Так, сложно математически выразить нюансы фразы с омонимами: «график (художник) не вписался в график (план)». Подобных примеров много.

Язык — это не только система правил, но и исключений. Это также эмоции, жесты, культурный и бытовой контекст, метафоры, игра слов или сарказм. Компьютер легко переводит с английского на суахили, но проблема в том, что ни того ни другого он не знает по-настоящему. Поэтому главная задача исследователей — научить алгоритмы извлекать смыслы из слов и работать с образами. Человек, например, запоминает смысл высказывания, а не его форму.

За извлечение смысла отвечает семантический анализ текста. Правильное применение слов в контексте обеспечивает прагматический анализ. Есть и другие уровни обработки естественного языка: морфологический, синтаксический, фонологический. Но с ними алгоритмы уже справляются.

Виталий: «Семантика — изучение "значения" лексических единиц независимо от контекста. Прагматика — процесс распознавания «невидимого значения» с учетом намерений отправителя данных, статуса получателя и реальной ситуации. Модель осваивает в основном семантические связи, которые могут переходить в условное понимание контекста. Например, в таких задачах, как question answering или summarization, сложно "выехать" только на одной семантике. Нужно понимать, к чему относится конкретный вопрос или какова основная мысль в параграфе. Развитие этих задач продолжается, усложняется их постановка. Вышел новый датасет [SQUAD 2.0], в котором нужно не просто найти ответ на вопрос в определенной статье, но и понять, есть ли в ней ответ на определенный вопрос».

В 90-х и 2000-х алгоритмы научились предсказывать следующее слово, выделять именованные сущности (имена собственные), определять спам и сортировать документы.

Векторная модель word2vec, реализованная в 2013 году, позволила создавать семантические связи и находить похожие по значению слова. Это частично решило проблему составления семантического словаря. Word2vec создает наборы взаимосвязанной лексики. Но такая модель анализа текстов называется «bag of words» — простой набор слов, без учета синтаксиса и отношений слов в предложении.

Сейчас алгоритмы учатся понимать контекст.

#2. Проблема определения эмоций и тональности

Алгоритмы должны научиться понимать тональность текста, учитывая сарказм и иронию. Тональность можно представить в виде функции или суммы тональностей предложений и слов. Некоторые слова меняют эмоциональную окраску в зависимости от контекста. Например, в Туркменистане верят, что белый цвет приносит удачу, а в Японии это цвет траура.

Но многие слова выражают одни и те же чувства в большинстве контекстов. Например, слова «отлично» и «торт» обычно положительны, тогда как «смерть» и «депрессия» — отрицательны. Эти ассоциации называются предшествующими. Системы анализа настроений выигрывают от знания этих предшествующих ассоциаций. Списки ассоциаций были созданы путем ручного аннотирования, но оно стоит дорого. Автоматические методы используют вручную созданные списки в качестве базовых.

Некоторые предложения могут вводить программу в заблуждение. Например, во фразе «отель хороший, но ресторан не понравился» алгоритму нужно разобраться в отношениях внутри предложения, чтобы определить общую тональность.

Также исследователям необходимо научить нейросеть юмору. Хё Хё из Стэнфорда уже разработала алгоритм, который создает каламбуры.

#3. Кросс-языковая морфология и малоресурсные языки

Компьютеры понимают не все языки одинаково хорошо. Лучше всего нейросети работают с популярных языками с фиксированной структурой (например, английским).

Также важно учитывать количество описанных слов, наличие текстов в разных жанрах для обработки (книги, журналы, пресса), наличие тезаурусов и словарей с аннотированными текстами. Всего 20 языков (из более 7000) подготовлены для работы с нейросетью. Хорошо обработаны западноевропейские языки, китайский и японский. Отсутствуют ресурсы для многих африканских и азиатских, а также вымирающих языков и местных диалектов. Практически невозможно обработать языки без письменности.

Малоресурсные языки нужно описывать, потому что:

NLP документирует языки и создает систему для языков без письменности. Это поможет сохранить их, прежде чем они исчезнут.
Можно обеспечить возрождение языков. Такое уже было, например, с ивритом. Нейросети могут это ускорить.
Анализ демографических и политических процессов. Носители малоресурсных языков незаметны для мира, их интересы не учитывают индексы в поисковиках, им недоступна таргетированная реклама, об их предпочтениях ничего не известно. В Африке проживают 1,2 млрд человек, и знания об их языках помогут открыть их миру.
Помощь при чрезвычайных ситуациях, болезнях, важных событиях мирового масштаба. Мгновенный перевод важного сообщения на большое количество языков способен спасти людей, которые смогут это сообщение понять.

Специалисты вручную собирают данные и обрабатывают их для создания корпусов малоресурсных языков. Яркий пример — американский проект Crúbadán. Создав запросы веб-поиска, предназначенные для захвата веб-страниц на определенных языках, проект построил корпуса для 18 721 языка, включая валлийский, панджаби, луо, кечуа.

Сложность в том, что для каждого языка нужно составлять свой корпус. Это усложняет и нагружает работу сети, увеличивая вероятность ошибок.

Кросс-языковой способ обработки и трансферное обучение стали одними из краеугольных камней NLP. Центральная идея заключается в том, что между языками есть общие черты, которые можно использовать для построения универсального корпуса. Процесс межъязыкового трансферного обучения относится к переносу ресурсов и моделей из богатого ресурсами источника на малоресурсные языки. Например, если русский уже достаточно хорошо обработан, можно перенести эти знания на белорусский, украинский и польский. Этот способ требует серьезных лингвистических знаний и готового программного описания о связи между исходным и целевым языком.

Трансфер модели позволяет перенести модели, использованные на языках с высоким объемом ресурсов, на малоресурсные языки в режиме однократного обучения. Этот подход популярен при машинном переводе.

«Родительская» модель обучается в языковой паре с высокими ресурсами (французский/английский). Затем эта модель повторно используется на «дочерней» модели, которая обучается на языковой паре с низким уровнем ресурсов (турецкий/узбекский).

Исследователи также разработали способ для создания нейросети-полиглота. Это «хардкорный» режим, в котором одна модель обучается на сочетании векторных наборов данных сразу сотен языков. Это позволяет создать набор универсальных параметров и применить их там, где это возможно.

Этот подход тесно связан с недавними усилиями по обучению кросс-языковой модели Transformer, обученной на 100 самых популярных языках, принадлежащих более чем к 30 языковым семьям.

Виталий: «Специалисты обучают модели для задач, на которые есть спрос и возможность выделять средства с последующей окупаемостью. При обучении языковых моделей на большом объеме текста, независимо от языка, будут учитываться различные особенности, порядок слов, склонения — все то, чему учат на уроках. Уже сейчас есть модели, которые охватывают сотни языков и могут применяться для них одновременно. Это используется скорее для экономии ресурсов, а не для улучшения точности. Если хочется достичь лучшей точности, то нужно разрабатывать отдельные модели для каждого языка».

#4. Неверная корреляция

Модели обнаруживают простейшие закономерности, объясняющие данные. Например, есть классификатор изображений, где представлены собаки и кошки. Изображения собак имеют оттенки серого, а кошки — цветные

Модель, скорее всего, зафиксирует ложную корреляцию между наличием/отсутствием цвета и тегами. Если попадётся изображение собаки в цвете, программа, вероятно, идентифицирует ее как кошку.

Огромный объем данных, необходимых для машинного обучения (в частности, глубокого обучения), берут из интернета. Из-за этого наборы наследуют нежелательные свойства текстов (дублирование, статистические ошибки, ложь), которые сложно обнаружить и удалить. Это тоже приводит к неверным корреляциям.

Виталий: «Изначально лучше собрать больше данных. Когда мы достигаем плато после добавления новых данных, то стоит задуматься об архитектуре, которая позволит выйти из плато и вырасти по точности. Зависит от цели, для которой создают нейросеть. Если она должна использоваться для общения с детьми, то нельзя добавлять все подряд. Данные должны проходить фильтрацию на нецензурную лексику, призывы к суициду и подобные негативные контексты. Нейросети генерируют тот текст, на котором они учились или некую комбинацию из него. Соответственно, проблемы могут возникать из-за неправильно подготовленной обучающей выборки. Если мы задаем вид стиля, в котором хотим генерировать текст, то такие ошибки могут возникнуть из-за недостаточного количества данных или ограниченности текущих решений».

Автор: Надя Осмокеску