Алгоритм-эрудит
Как стартап из США строит крупнейший граф знаний.
Стэнфордский проект Diffbot не просто обучается на статьях из интернета, он представляет информацию как набор фактов, а затем объединяет их в граф. Все это — чтобы найти ответ на любой вопрос.
Мы перевели материал MIT Technology Review, который рассказывает, как устроен Diffbot.
База информации
Еще в июле 2020 года последняя языковая модель OpenAI, GPT-3, поражала тем, что писала текст, который выглядел как написанный человеком. Люди начали демонстрировать, как GPT-3 может автоматически вводить код или заполнять пробелы в электронных таблицах. Но проблема в том, что такие языковые модели плохо понимают, что они на самом деле говорят. «Они и правда умеют создавать истории. Но они не обучены основываться на фактах», — говорит Майк Тунг, CEO Diffbot. Это проблема, если мы хотим, чтобы алгоритмы вызывали доверие. Поэтому Diffbot использует другой подход. Он создает ИИ, который читает каждую страницу во всей общедоступной сети на нескольких языках и выносит с этих страниц как можно больше фактов.
Как и GPT-3, система Diffbot учится, поглощая огромные объемы написанного людьми текста в интернете. Но вместо того, чтобы использовать эти данные для обучения языковой модели, Diffbot превращает прочитанное в серию фактов из трех частей, которые связывают одно с другим: субъект, глагол, объект.
Например, из биографии автора MIT Technology Review алгоритм узнает, что Уилл Дуглас Хевен — журналист; Уилл Дуглас Хевен работает в MIT Technology Review; MIT Technology Review — медиакомпания. Каждый из этих фактов объединяется с миллиардами других в разветвленную взаимосвязанную сеть — граф знаний.
Графы знаний существуют уже несколько десятилетий. Они лежали в основе ранних исследований ИИ. Но их обычно строят и поддерживают вручную, что сложно. Это помешало Тиму Бернерсу-Ли запустить семантическую сеть, которая включала бы информацию и для машин, и для людей, чтобы боты могли бронировать рейсы, делать покупки или давать более разумные ответы, чем поисковые системы.
Несколько лет назад Google тоже начал использовать графы знаний. Если загуглить «Кэти Перри», вы увидите поле рядом с основными результатами поиска, в котором будет указано, что Кэти Перри — американская певица и автор песен, музыка которой доступна на YouTube, Spotify и Deezer. Вы сразу узнаете, что она замужем за Орландо Блумом, ей 36 лет и у нее есть дочь. Вместо того, чтобы предоставить список ссылок на страницы о Кэти Перри, Google предлагает факты о ней, взятые из графа знаний.
Но Google поступает так только с самыми популярными поисковыми запросами. Diffbot хочет использовать граф знаний для любой информации. Он построил, возможно, самый большой граф за всю историю.
Наряду с Google и Microsoft, это одна из трех американских компаний, которые сканируют всю общедоступную сеть. «Определенно есть смысл сканировать интернет. Иначе для создания обширной базы знаний может потребоваться много человеческих усилий», — говорит Виктория Лин,которая занимается обработкой естественного языка и представлением знаний в Salesforce. Хайко Паульхейм из Мангеймского университета в Германии согласен с ней: «Автоматизация — единственный способ построить крупномасштабные графы знаний».
Суперсерфер
Чтобы собрать факты, искусственный интеллект Diffbot читает интернет как человек, но намного быстрее. Используя супермощную версию браузера Chrome, ИИ просматривает пиксели страницы и использует алгоритмы распознавания изображений, чтобы отнести ее к одному из 20 типов (например, видео, статьи или обсуждения). Затем он определяет ключевые элементы страницы (заголовок, автор, описание продукта или цена) и использует NLP для извлечения фактов из любого текста.
Каждый факт, состоящий из трех частей, добавляется в граф знаний. Diffbot извлекает факты со страниц, написанных на любом языке. Значит, он может отвечать на вопросы о Кэти Перри, например, используя факты, взятые из статей на китайском или арабском, даже если они не содержат слова «Кэти Перри».
ИИ должен скроллить, переключаться между вкладками и закрывать всплывающие окна. То, что ИИ просматривает страницы в интернете так же, как люди, позволяет ему видеть те же факты.
Diffbot безостановочно сканирует интернет и перестраивает свой граф знаний каждые четыре-пять дней. По словам Тунга, ИИ добавляет от 100 до 150 млн объектов каждый месяц — в сети появляются новые селебрити, создаются компании и запускаются продукты. Он использует все больше алгоритмов машинного обучения, чтобы объединять новые факты со старыми, создавать новые связи или перезаписывать устаревшие. По мере роста графа знаний, Diffbot должен добавлять новое оборудование в свой центр обработки данных
Исследователи могут получить доступ к графу знаний Diffbot бесплатно. Но у компании есть около 400 клиентов, которые платят за услуги. Поисковая система DuckDuckGo использует его для создания собственных гуглоподобных ящиков. Snapchat — для извлечения ключевой информации из новостей. Приложение для планирования свадеб Zola использует Diffbot, чтобы помогать людям составлять списки, добавляя изображения и цены. Биржа NASDAQ применяет Diffbot для финансовых исследований.
Естественный язык
Adidas и Nike используют Diffbot для поиска подделок в интернете. В отличие от простых поисковиков, система позволяет компаниям искать сайты, которые действительно продают обувь, а не просто говорят о ней.
Сейчас бизнесам приходится взаимодействовать с Diffbot с помощью кода. Но Танг планирует добавить интерфейс на естественном языке. В итоге он хочет создать то, что называет «универсальной системой ответов на вопросы»: ИИ, который мог бы ответить почти на все ваши вопросы и предоставить источники, подтверждающие его ответ.
Тунг и Лин соглашаются, что такой ИИ не может быть построен только с использованием языковых моделей. Но еще лучше было бы объединить технологии, применяя модель вроде GPT-3, чтобы создать интерфейс, понятный людям.
Тем не менее, даже искусственный интеллект, который раскрывает факты, не обязательно умен. «Мы не пытаемся определить, что такое интеллект. Мы просто стараемся создать что-то полезное», — говорит Тунг.