«Зеленые» алгоритмы
Как нейросети отслеживают вырубку лесов, считают популяции животных и помогают фермерам.
Раньше на все экологические исследования требовались годы. Сейчас ML-инструменты позволяют следить за природой в live-режиме. Вместе с Леонидом Шумило, сооснователем экологического проекта Deep Green Ukraine, разбираемся, как deep learning помогает окружающей среде.
Спутниковые данные
Подключение ML-алгоритмов машинного обучения позволило экологам создать новые инструменты для контроля над окружающей средой.
Леонид: «Многие индикаторы для определения целей глобального устойчивого развития от ООН можно проанализировать только с помощью спутниковых данных. Например, соотношение площади лесов к площади страны или определение площади деградированных земель. Информацию о накоплениях углерода в почве или изменениях земного покрова анализируют только с применением ML и DL.
Кроме того, на спутниковых снимках можно рассмотреть воду с определенным спектральным отпечатком. Так определяют районы, в которых проживают зараженные малярией комары, что важно для стран Африки».
Спутниковые данные применяют экологи из Chesapeake Conservancy, которые занимаются защитой Чесапикского залива — самого крупного устья реки в США. Чесапикский залив собирает воду с 64 тыс. квадратных миль на территории шести штатов. Вещества, которые выбрасывают города и фермы, собираются в заливе. Но превратить его территорию в заповедник и остановить хозяйственную деятельность в регионе невозможно. Поэтому в разных частях водосбора принимают разные меры для сохранения чистоты Чесапикского лимана. Chesapeake Conservancy работают по принципу precision conservation.
Традиционные экологические подходы в основном заключаются в создании больших парковых зон с запретом на хозяйственную деятельность. Стратегия precision conservation более целенаправленна. Суть подхода в том, чтобы остановить загрязнение при меньших потерях полезной площади или сокращении производства. Это, например, посадка деревьев или восстановление болот на самых важных для окружающей среды территориях.
Но precision conservation требует точного понимания ландшафта. Chesapeake Conservancy использовало ML для создания ландшафтных карт высокого разрешения. Организация сгенерировала цифровую карту площадью 259 тыс. км², используя спутниковые снимки. Цвета карты отображали дороги, дома, леса, луга и поля. Также на ней отобразили всю водную систему залива.
Алгоритм соотнес спутниковые снимки с ландшафтными обозначениями.
Сначала он проанализировал почти 80 тыс. квадратов по 33,6 км² и зарегистрировал ландшафт на карте. Потом еще 30 человек исправляли ошибки системы в течение 10 месяцев.
Ранее в одном пикселе отображали земельный участок площадью 30 на 30 метров. Новая карта в 900 раз точнее: в одном пикселе — территория квадратного метра. Благодаря карте можно, например, узнать траекторию водосбора и высадить буферные деревья, которые помогут отфильтровать удобрения.
Microsoft сотрудничает с Chesapeake Conservancy по программе «AI для Земли». Мощности Microsoft позволили анализировать 200 млн изображений за 10 минут. Chesapeake Conservancy планирует создать такие карты для Айовы, Аризоны, района Великих Озер. Разработку использует НКО из Калифорнии Trust for Public Land, которая занимается охраной парков: с помощью технологии выбирают места для их строительства.
Deep Green Ukraine и лесной мониторинг
Украинский стартап Deep Green Ukraine внедряет технологию для отслеживания незаконных вырубок леса. Проект возник в Институте космических исследований НАН Украины, где ранее создавали карты на основе спутниковых данных с применением нейросетей. Команда института прошла в финал Open Data Challenge — конкурса стартапов с использованием открытых данных. Сейчас проект реализуют совместно с общественными организациями «Лесные инициативы и общество» и «Центр мониторинга власти».
Леонид: «Мы решили разработать сервис, который способен на основе спутниковых данных обнаруживать вырубки, а с помощью анализа разрешительных документов — классифицировать их как законные или незаконные».
Команда использует данные Европейского космического агентства со спутников Sentinel-1 и Sentinel-2. Различия между ними в том, что Sentinel-2 предоставляет оптический снимок, из-за чего неточен в облачные дни. Sentinel-1 посылает электромагнитный сигнал на Землю и получает ее отпечаток, а поэтому нечувствителен к погоде. Deep Green Ukraine соединяет эти снимки и получает 6-канальный снимок-композит. Четыре типа данных получают с Sentinel-1 и два — со спутника Sentinel-2. Композит обновляется каждую неделю.
Леонид отмечает, что, в отличие от классического deep learning, где анализируется один аспект, для обучения важны все 6 типов характеристик. Другая особенность спутникового компьютерного зрения — ограниченная аргументация, что усложняет настройку модели. Это происходит из-за того, что текстурные признаки объектов на снимках имеют такое же значение, как и мультиспектральные (интенсивность цвета в разных спектральных каналах).
Deep Green Ukraine использует три типа моделей для обучения: классический U-Net и два — на базе fishNet — сверточной нейросети для классификации изображений. Их применяют как multiple teachers network. В результате создают 3 карты, которые генерируют псведолейблы или псевдометки — предположительные данные, которые модель создала на основе маркированных. Лучшая модель продолжает обучение на новом датасете из уже размеченных данных и псевдометок.
Леонид: «Сначала мы вручную разметили 6 тыс. сэмплов (мест рубок) на одном снимке, который покрывает часть страны. Чтобы покрыть один регион, в среднем нужно 12 таких снимков. Мы используем размеченный фрагмент, а на другой снимок для оценки точности модели помещаем тестовый фрагмент, который содержит 3,5 тыс. сэмплов. Затем объединяем фрагменты и обучаем систему генерировать новые части карты и заполнять пробелы. Это semi-supervised learning. В результате получаем три отдельные карты, которые мэтчим в одну, покрывая территорию области, получая данные для всего региона. После этого мы учим лучшую модель на псевдолейблах, и она работает на уровне области.
Проблема в том, что леса сильно отличаются даже в масштабах одной области, а снимки происходят в разные дни недели. Нам нужно сравнить спектральные характеристики цвета снимков для большей точности».
Сейчас показатели точности у системы по обнаружению незаконных рубок достигли 98%. Но разработчики считают, что в первые месяцы Deep Green Ukraine будет регистрировать много ложных случаев. Проблема — в ошибках в государственных данных (неверно указанные даты рубок, координаты или объемы). Команда сотрудничает с Национальным агентством лесных ресурсов, уточняя open data.
Deep Green Ukraine планирует запустить пилотную версию в четырех областях Украины (Киевской, Львовской, Закарпатской и Одесской) в июне 2021 года, а потом масштабировать проект на всю страну.
Мониторинг популяций животных
Компания DeepMind использует машинное обучение для ускорения экологических исследований. Например, разрабатывает решения с применением ML для отслеживания популяции животных. Такой метод применили в Национальном парке Танзании — месте, где человек не повлиял на экосистемы.
В рамках проекта Serengeti Lion Research установили сотни камер, чувствительных к движению. За последние 9 лет команда собрала миллионы фото животных. Ранее для подсчета и идентификации видов на фотографиях привлекали волонтеров, которые считали вручную и создали набор данных SnapShot Serengeti. В датасете около 50 видов. Процесс аннотации длителен — от момента снимка до попадания в каталог в среднем проходит год. Поэтому DeepMind обучил систему обнаруживать, идентифицировать и считать животных на наборе SnapShot Serengeti.
Сейчас алгоритм работает на одном уровне с людьми-аннотаторами и сократил время обработки фотографии с 12 до 9 месяцев.
Подобный принцип для исследования океана использует Global Fishing Watch, а The Snow Leopard Trust — для обновления информации о численности снежных барсов.
Сельское хозяйство
Немецкий стартап Peat создал приложение Plantix для поиска болезней сельхозкультур. Фермеры фотографируют поврежденные растения, а алгоритм выдает название и причину болезни, используя computer vision. В 2015 году в Plantix загрузили 500 тыс. фотографий для обучения, но фото каждого пользователя добавляются к учебным данным программы. Plantix специализируется на диагностике самых важных для мирового продовольствия растений (бананы, пшеница, кукуруза, рис, соя). Алгоритм определяет более 60 болезней и поражение вредителями в 95% случаев, а также предлагает информацию о методах профилактики или лечения.
Приложение лучше всего подходит для использования в Бразилии, Германии и Индии. Данные других стран дополняются. В 2020 году приложение использовали 1,2 млн человек как минимум раз в месяц.