Для чего нужна обработка географических данных
Геоинформационные системы (ГИС)
ГИС используют для решения научных и прикладных задач инфраструктурного проектирования, городского и регионального планирования, рацион
ГИС появились в 1960 гг при появлении технологий обработки информации в СУБД и визуализации графических данных в САПР, автоматизированного производства карт, управления сетями.
Назначение ГИС определяется решаемыми в ней задачами (научными и прикладными), такими как инвентаризация ресурсов, управление и планирование, поддержка принятия решений.
Этапы создания ГИС:
предпроектные исследования, в тч изучение требований пользователя и функциональные возможности используемого ПО,
технико-экономическое обоснование (ТЭО)
системное проектирование ГИС, включая стадию пилот-проекта, разработку ГИС;
тестирование ГИС на небольшом территориальном фрагменте или тестовом участке или создание опытного образца,
эксплуатация и обслуживание ГИС.
Источники данных для создания ГИС:
данные дистанционного зондирования (ДДЗ): в тч, получаемые с космических аппаратов и спутников материалы, Изображения получают и передают на Землю с носителей съемочной аппаратуры, размещенных на разных орбитах. Полученные снимки отличаются разным уровнем обзорности и детальности отображения объектов природной среды в нескольких диапазонах спектра (видимый и ближний инфракрасный, тепловой инфракрасный и радиодиапазон), что позволяет решать широкий спектр экологических задач. К методам дистанционного зондирования относятся также аэро- и наземные съемки, и другие неконтактные методы, например гидроакустические съемки рельефа морского дна. Материалы таких съемок обеспечивают получение как количественной, так и качественной информации о различных объектах природной среды;
результаты геодезических измерений на местности, выполняемые нивелирами, теодолитами, электронными тахеометрами, GPS приемниками и др;
данные государственных статистических служб по самым разным отраслям народного хозяйства, а также данные стационарных измерительных постов наблюдений (гидрологические и метеорологические данные, сведения о загрязнении окружающей среды и пр).
литературные данные (справочные издания, книги, монографии и статьи, содержащие разнообразные сведения по отдельным типам географических объектов). В ГИС редко используется только один вид данных, чаще всего это сочетание разнообразных данных на какую-либо территорию.
Эффективное использование ГИС для решения разнообразных пространственно-локализованных задач требует от пользователя достаточного объема знаний о геодезических системах координат, картографических проекциях и других элементах математической основы карт ГИС, знаний о методах получения по карте различной информации, математических и других методов использования этой информации для решения пространственно-локализованных задач ГИС.
Научные, технические, технологические и прикладные аспекты проектирования, создания и использования ГИС изучаются геоинформатикой.
Данные, собираемые в геоинформатике, выделяют в особый класс данных, называемых геоданными.
Геоданные описывают объекты через их положение в пространстве непосредственно (например, координатами) или косвенно (например, связями).
В целом следует выделить следующие технологии сбора данных в геоинформатике:
воздушная съемка, которая включает аэросъемку, съемку с мининосителей;
глобальная система позиционирования (GPS);
космическая съемка, которая является одним из важнейших источников данных для ГИС при проведении природоресурсных исследований, экологического мониторинга, оценки сельскохозяйственных и лесных угодий и т. д.;
карты или картографическая информация, которая является основой построения цифровых моделей ГИС;
данные, поступающие через всемирную сеть Internet;
наземная фотограмметрическая съемка служит источником информации для ГИС при анализе городских ситуаций, экологического мониторинга за деформацией и осадками;
цифровая фотограмметрическая съемка основана на использовании цифровых фотограмметрических камер, которые позволяют выводить информацию в цифровом виде непосредственно на компьютер;
видеосъемка, как источник данных для ГИС, используется в основном для целей мониторинга;
документы, включая архивные таблицы и каталоги координат, служат основным источником данных для ввода в ГИС так называемой предметной или тематической информации, к которой относятся экономические, статистические, социологические и другие виды данных;
геодезические методы (автоматизированные и не автоматизированные) используются для уточнения координатных данных,
источником данных для ГИС являются также результаты обработки в других ГИС;
фотографии, рисунки, чертежи, схемы, видеоизображения и звуки;
статистические таблицы и текстовые описания, технические данные;
почтовые адреса, телефонные книги и справочники;
геодезические, экологические и любые другие сведения.
ГИС используют для решения научных и прикладных задач инфраструктурного проектирования, городского и регионального планирования, рационального использования природных ресурсов, мониторинга экологических ситуаций, принятия оперативных мер в условиях ЧС и тд.
ГИС классифицируются по следующим признакам:
1. По функциональным возможностям:
полнофункциональные ГИС общего назначения;
специализированные ГИС, ориентированные на решение конкретной задачи в какой либо предметной области;
информационно-справочные системы для домашнего и информационно-справочного пользования. Функциональные возможности ГИС определяются также архитектурным принципом их построения:
2.По пространственному (территориальному) охвату ГИС подразделяются на глобальные (планетарные), общенациональные, региональные, локальные (в том числе муниципальные).
Структура ГИС включает комплекс технических средств (КТС) и программное обеспечение (ПО), информационное обеспечение (ИО).
Рабочая станция используется для управления работой ГИС и выполнения процессов обработки данных, основанных на вычислительных и логических операциях.
Ввод данных реализуется с помощью разных технических средств и методов: непосредственно с клавиатуры, с помощью дигитайзера или сканера, через внешние компьютерные системы. Пространственные данные могут быть получены с электронных геодезических приборов, с помощью дигитайзера или сканера, либо с использованием фотограмметрических приборов.
Базовое ПО включает операционные системы (ОС), программные среды, сетевое программное обеспечение, системы управления базами данных, и модули управления средствами ввода и вывода данных, систему визуализации данных и модули для выполнения пространственного анализа.
Многослойная организация электронной карты, при наличии гибкого механизма управления слоями, позволяет объединить и отобразить гораздо большее количество информации, чем на обычной карте.
Информация, представленная в виде отдельных слоев, и их совместный анализ в разных комбинациях позволяет получать дополнительную информацию в виде производных слоев с их картографическим отображением (в виде изолинейных карт, совмещенных карт различных показателей и тд).
ГИС-технология объединяет разрозненные данные в единый вид, что упрощает принятие управленческих решений информационного обеспечения на различных уровнях планирования и получать, анализировать и принимать решения в науке, управлении хозяйствовании.
Рынок ГИС, отличающихся по функциональным возможностям, требованиям к КТС, ПО и ИО, довольно развит.
Геоаналитика с помощью Python и открытых данных: пошаговое руководство
Каждый бизнес желает знать, где сидит
фазанцелевая аудитория
Всем привет! Геоаналитика преследует меня вот уже 3 года, скоро пойдет 4-й. Начиналось все в компании Тандер (Магнит), где я в роли одного из Дата Сайнтистов проекта прогнозировала потенциальный оборот магазинов, а продолжается в Билайне, где я теперь уже занимаюсь предиктивом не только для ритейла, но и для других форматов. Помимо этого, мне удалось применить геоаналитику для анализа инвестиционной привлекательности коммерческой недвижимости, а также поработать с микробизнесом и предпринимателями, которые не обладают миллионными бюджетами для геомаркетинговых исследований, но в то же время, не очень хотят терять миллионы после выбора неудачного места открытия. Присаживайтесь поудобнее, надеюсь, будет полезно и интересно (а именно: предпринимателям, малому бизнесу, где важен правильный выбор локации и аналитикам того самого бизнеса)
В этой статье рассмотрим кейс «Как выбрать помещение для открытия кофейни?». В целом, данный подход масштабируется на любые виды бизнеса, где важна локация и то, что на ней происходит/находится.
Содержание:
Введение в геоаналитику и геомаркетинг
Работа с гексагонами: познакомимся с гексагонами (Uber H3), научимся их выгружать, визуализировать
Выгрузка, визуализация и анализ гео данных из OSM
Где открыть кофейню?
Бибилиотеки: geopandas, json, shapely, folium, osmnx, h3
Волшебство: пересечение (пространственный join) полигонов и точек, визуализация гео данных (нанесение точек/полигонов на карту osm и ее различное форматирование), поиск ближайших объектов и др.
Введение в геоаналитику и геомаркетинг
Геома́ркетинг (географический маркетинг) — маркетинговая дисциплина, направленная на взаимодействие с локальной аудиторией, выделенной по географическому признаку, с целью планирования, продвижения и осуществления деятельности в области сбыта продукции (wikipedia)
розничная торговля продуктами питания (FMCG)
здравоохранение (аптеки, частные клиники)
общепит (кафе, рестораны, бары)
банковский сектор и страхование
DIY (строительные магазины)
девелопмент торговых центров и др.
выбор оптимального размещения нового объекта
оценка потенциального объема продаж, определение класса (масс-маркет, бизнес, люкс) и состава реализуемой продукции/услуг
определение эффективного пути использования имеющегося объекта
выбор оптимальной локации для размещения наружной рекламы и др. маркетинговых оффлайн активностей
4 принципа масштабирования сети:
4 принципа масштабирования сети
1) Перехват трафика
Этот принцип подразумевает открытие сетевых точек в зонах с высоким пешеходным трафиком (важно: высокий пешеходный трафик не всегда равен большому количеству целевой аудитории (ЦА) => анализируем состав ЦА), а также вблизи уже открытых точек конкурентов (важно: конкурентное преимущество)
Эффект синергии достигается благодаря открытию смежных ниш бизнеса. Например: рядом с детскими товарами открывается магазин с товарами для дома/мам и пр.
Торговые точки должны быть кластеризованы (распределены на группы) как минимум по следующим категориям: бюджет района, тип населенного пункта (большой/малый, поселки и пр.), формат торговой точки. Это означает, что для каждой группы необходима индивидуальная стратегия масштабирования, ценообразования, ассортиментной политики и т.д.
Его величество, BIG DATA
Развитие технологий получения, обработки и хранения геоданных позволяют творить потрясающие вещи в рамках геомаркетинговых исследований.
Используя различные приложения вы делитесь своей геопозицией
Совершая звонки, смс, используя интернет, вы автоматом попадаете в базы данных телеком операторов, поисковых порталов, а также web-сервисов
Подключаясь к WIFI в кафе, ТЦ, вы тоже попадаете в чью-то базу
И это еще не весь список, но важно отметить, что в любом геомаркетинговом исследовании эти данные обезличены и выглядят примерно так: «в радиусе 500 м проживает 666 женщин и 999 мужчин»
Какую информацию может содержать геомаркетинговое исследование локации?
Трафик (автомобильный, пешеходный):
Активность (кол-во пешеходов, кол-во автомобилей, кол-во проживающих/работающих)
Экономическая активность: количество чеков по категориям покупок, средний чек (ОФД)
Интересы (основаны на поисковых запросах, часто посещаемых приложениях и пр.) и др.
Это действительно один из самых мощных способов снизить риск «вложить кучу денег в открытие, но прогадать с местом», а автоматизация процесса поиска потенциальных мест открытия и их анализа помогает быстрее масштабировать сеть. Федеральные сети уже давно сформировали собственные отделы геоаналитики и активно закупают данные. Но как быть предпринимателям и микро бизнесу, который не готов тратить миллионы?
Гексагоны (H3: Uber’s Hexagonal Hierarchical Spatial Index)
Uber опубликовал open source проект, с помощью которого можно легко и просто нанести на карту красивые шестиугольники 🙂 Подробнее.
Сделаем сразу импорт всех библиотек:
Посмотрим как выглядит гексагон для рандомной точки в г. Краснодар:
Подробнее про объекты карты, которые мы будем выгружать и анализировать.
Теперь, с помощью osmnx и h3 сотворим магию и сгенерим гексагоны внутри полигона г. Краснодара:
1) Выгрузим границы г. Краснодара из OSM
2) Сгенерим гексагоны внутри полигона:
Выгрузка, визуализация и анализ геоданных из OSM
Выгружаем объекты карты из OSM:
Spatial Join
Теперь, нам надо сджойнить полученные объекты с гексагонами:
Посмотрим как по городу распределены кофейни:
Выгрузим доступную инфу о жилых многоэтажных зданиях:
Давайте посчитаем сколько людей проживает в этих домах, основываясь на следующих предположениях:
Ok, Гугл: сколько в среднем квартир на этаже?
Гугл вещает, что кол-во квартир напрямую зависит от класса жилья:
Но мы здесь собрались не для того, чтобы парсить авито/циан, поэтому дальше будем использовать в среднем 10 квартир на этаж (доля бизнес и комфорт класса не так велика в Краснодаре)
Посмотрим что у нас вышло с плотностью «гипотетического» населения в Краснодаре:
ля какая красота (не сильно точные данные у OSM, но дареному коню в зубы не смотрят!)
Где открыть кофейню? Определяем лучшее место для поиска потенциального помещения
Где открыть кофейню? Вопрос для отдельной статьи, а сюда я пришла, чтобы показать вам пример как можно творить магию геаналитику на открытых данных. Логично, что одним из ключевых факторов будет много людей и мало конкурентов, т. е. я предлагаю вам рассчитать фичу население/кол-во кофеен в гексагоне. Так мы сможем выбрать ТОП гексагоны для поиска потенциальных мест для открытия кофейни. Итого:
Добавим фичу население/кол-во кофеен в гексагоне.
Выберем гексагон с наибольшим значением.
Выберем этот гексагон и его 6 соседей (быстро это можно сделать с помощью KDTree библиотеки scipy), чтобы на всякий пожарный не упустить ближайшие области из-за каких-либо перекосов в данных OSM (опционально).
Открываем авито/циан и ищем там помещение для кофейни.
Какие еще фичи можно рассчитать?
Количество якорей трафика (ТЦ, БЦ, фаст фуд рестораны, супермаркеты и т. д.) поделим на кол-во кофеен/на кол-во населения
Huff (а вот про модель Huff я расскажу позже 🙂
Моя первая статья на Habr. Не кидайте помидоры 🙂
Использование геолокационных данных в машинном обучении: основные методы
Данные о местоположении — это важная категория данных, с которыми часто приходится иметь дело в проектах машинного обучения. Они, как правило, дают дополнительный контекст к данным используемого приложения. Специально к старту нового потока курса по Machine Learning, делимся с вами кратким руководством по проектированию и визуализации элементов с геопространственными данными.
Например, перед вами может встать задача прогнозирования объёмов онлайновых продаж через анализ клиентских данных. Методы машинного обучения способны определить более точные модели покупательского поведения с учётом информации о местоположении клиента. Применение таких методов более эффективно, если речь идёт о физических (не онлайновых) площадках, таких как магазины розничной торговли, рестораны, гостиницы или больницы.
В этой статье я попробую представить обзор методов работы с геолокационными данными для приложений машинного обучения. Эта довольно обширная тема, поэтому здесь я изложу только её основы. В следующих статьях я расскажу о конкретных областях более подробно.
Данные о предметной области приложения (включают основную информацию о местоположении)
Как и в случае со всеми приложениями машинного обучения, начинаем с набора данных о предметной области приложения. Важно понять, что в этих данных, помимо прочей, также содержится информация для определения нужного нам физического местоположения — либо в виде адреса, либо в виде географических координат: широты и долготы.
Допустим, мы хотим спрогнозировать цены на недвижимость. Наш набор данных обычно состоит из информации о доме (его типе, времени постройки, площади и т. д.), его цене и, естественно, местоположении. Эти данные представляют собой структурированную таблицу.
Другие приложения могут использовать другие типы данных, например изображения. При прогнозировании для таких предметных областей, как сельское хозяйство (например в составлении прогнозов объёмов производства продуктов питания), геология (например при поиске оптимального места добычи полезных ископаемых), могут использоваться спутниковые изображения.
Спутниковые изображения
Очевидно, что при составлении прогноза данные о местоположении играют большую роль. Как же их можно использовать?
Геопространственные данные (используются как дополнение к информации о местоположении)
Наш набор данных можно расширить, добавив к нему внешние данные, основанные на местоположении (либо общедоступные, либо полученные от третьей стороны). В этой статье я буду использовать термин «геопространственные данные», или «данные геоинформационной системы (ГИС)», поскольку такие данные включают в себя информацию, связанную с географическим контекстом местности.
С помощью геопространственных данных фиксируются основные географические атрибуты местоположения.
Для нашей задачи прогнозирования цен на недвижимость это может быть информация о районе, местах расположения школ и парков, административных границах города, плотности населения, зонах землетрясений или наводнений, а также о любых других факторах.
Аналогичным образом, если используется информация со спутника, такие данные могли бы включать сведения о расположении рек и лесов, топографическую информацию (сведения о расположении холмов и долин), данные о региональном климате и прочее. Давайте вначале посмотрим, как эти данные представлены.
Форматы геопространственных данных
Таких стандартных форматов может быть несколько. В них хранятся геометрические данные и другие описательные атрибуты географических объектов. Например, в таких данных могут храниться координаты дорожных маршрутов с указанием типа и ширины дорожного покрытия, данные об ограничениях скорости на участках дороги, типе дороги (городская улица, автострада и пр.).
Самые часто используемые форматы:
Векторный формат (самый древний и самый распространённый стандарт. Файл в векторном формате фактически представляет собой набор файлов: в одном файле хранятся геометрические данные, в другом — специальные атрибуты данных и т. п.).
GeoPackage (более новый стандарт, набирающий популярность. Данные хранятся в одном небольшом по размеру файле, реализованном в виде контейнера базы данных SQLLite).
GeoJSON (использует стандартный текстовый формат JSON).
Геометрические геоданные хранятся в виде векторных объектов:
точка: например местоположения зданий, домов, ресторанов, стоянок такси;
ломаная: например улицы, реки, железные дороги;
полигон: определяет зоны, например регионы, районы, озера, штаты, страны;
мультиполигон: набор полигонов.
В геоинформационных данных используются структуры данных Точка, Ломаная, Полигон и пр.
Помимо хранения отдельных объектов в геоинформационных данных также может содержаться топологическая информация, то есть информация о связях между объектами. В ней определяются дополнительные объекты:
дуга: аналогично ломаной;
узел: точка пересечения различных дуг или полигонов;
вершины: излом ломаной.
Географические объекты представляют географические особенности и отношения между ними
Они используют структуры данных, определяющие связь между такими объектами, например:
Какие объекты находятся рядом друг с другом?
Какие дуги соединяются друг с другом?
Какие объекты находятся внутри других полигонов?
Загрузка геоданных
К счастью, нам не нужно вникать в тонкости структуры таких форматов и работать с низкоуровневыми структурами данных.
Мы можем использовать замечательную Python-библиотеку GeoPandas, максимально упрощающую выполнение задачи. GeoPandas представляет собой надстройку библиотеки Pandas, поэтому в ней сохранены все её мощные функции.
Она работает с объектами GeoDataFrame и GeoSeries, представляющими собой «пространственно ориентированные» версии объектов DataFrame и Series в Pandas. В надстройке реализуется ряд дополнительных методов и атрибутов, которые можно использовать для работы с геоданными в DataFrame.
GeoDataFrame — это обычный объект в Pandas DataFrame с дополнительным «геометрическим» столбцом в каждой строке, в который заносятся данные о местоположении.
GeoPandas также может одной командой загружать геопространственные данные из различных форматов географических файлов в GeoDataFrame. Операции в GeoDataFrame выполняются одинаково независимо от исходного формата. Таким образом, стираются различия между форматами и их структурами данных.
Предварительная обработка геоданных (базовые системы координат)
Геоданные содержат координаты (x, y) географических мест, как правило, в виде значений широты и долготы. Однако, как ни странно, сами по себе эти координаты не могут быть привязаны к физическому местоположению.
Такие координаты — не более чем числа в произвольном пространстве. Для того чтобы они могли однозначно отображать реальное место в реальном мире, они должны быть связаны с системой координат. Такая система координат называется базовой (CRS).
Базовая система координат привязывает координаты широты/долготы к реальной точке на Земле
Нам сейчас просто важно понять, что, поскольку Земля не является идеальной сферой, идеальных универсальных базовых систем координат просто не существует. Систем CRS множество, и каждая оптимизирована под конкретные цели или различные участки Земли.
Предварительная обработка геоданных (картографические проекции)
Аналогичным образом системы CRS используются для проецирования координат местоположения на карту с целью визуализации.
Картографическая проекция выводит изображение 3D-сферы на 2D-поверхность
Поэтому, если вы получаете геоданные из разных источников, нужно позаботиться о том, чтобы перепроецировать все эти координаты в одну и ту же базовую систему координат. Также нужно убедиться, что она совпадает с базовой системой координат, используемой картой визуализации. В противном случае координаты вашего местоположения будут отображены неверно.
После загрузки и стандартизации геоданных необходимо выполнить анализ полученных данных и визуализировать их.
Визуализация
В Geopandas реализована довольно мощная встроенная функциональность прорисовки. Кроме того, для визуализации геоданных можно использовать другие отличные библиотеки Python, например Folium и Plotly.
Загрузите данные приложения в Pandas Dataframe.
Переведите данные в GeoDataFrame посредством преобразования информации о местоположении в её геометрический формат.
Затем выведите изображение GeoDataFrame.
Изображение данных о местоположении
Сами по себе точки данных не несут осмысленного контекста. Поскольку эти точки представляют собой места в Нью-Йорке, вы должны наложить их на базовую карту Нью-Йорка (которую мы загрузили из Shapefile), и только тогда такой набор точек приобретёт значимость.
Базовая карта Нью-Йорка
Для получения контекста наложите данные о местоположении на базовую карту
Добавление функциональных возможностей
В зависимости от решаемой проблемы данные о местоположении можно использовать для добавления в набор данных дополнительных функций. Вот самые распространённые дополнительные функции.
Геокодирование и обратное геокодирование
Геокодирование — это способ привязки адреса, записанного в текстовом виде (например адреса дома, который вы собираетесь оценить), к координатам (широте/долготе). И, наоборот, обратное геокодирование позволяет сопоставить с координатами адрес (по улице, городу, штату и почтовому индексу). Такую функциональность обеспечивает Geopy — популярная Python-библиотека.
Расстояние между двумя точками
Имея точные координаты достопримечательностей, можно рассчитать расстояние между ними. Например, важной информацией может быть расстояние до ближайшей больницы или расстояние между местами посадки и высадки в каршеринге. Такое расстояние можно измерить несколькими способами:
эвклидово расстояние — простое расстояние по прямой между координатами (x, y) двух точек. Это расстояние измеряется на плоской 2D-поверхности;
геодезическое расстояние измеряется на сферической Земле, то есть на трёхмерной поверхности. Например, кратчайшим расстоянием будет расстояние между двумя точками на сфере. Расстояние Haversine — это примерно то же, что и дуга большого круга, но для его расчёта используется формула Haversine;
манхэттенское расстояние применяется к городским местоположениям, в которых улицы образуют кварталы. Используется для расчёта фактического расстояния (например при вождении или пешей прогулке) между двумя точками вдоль городских улиц. Такой расчёт более логичен, чем расчёт расстояния по прямой. Название расстояния происходит от района Манхэттен в Нью-Йорке, заполненного кварталами квадратной формы с дорогами, идущими параллельно друг другу и пересекающимися под прямым углом. Однако на практике, хотя улицы и пролегают прямо, их направление не всегда в точности ориентировано на север, юг, восток или запад. Это обстоятельство учитывается: рассчитывается скорректированное расстояние с учётом угла поворота карты улиц города.
Манхэттенское расстояние
Определение направления из одной точки к другой
При перемещении между двумя точками земного шара помимо расстояния можно рассчитать направление движения (азимут). При выходе из начальной точки рассчитывается начальное направление.
Направление между Кейптауном и Мельбурном
Расстояние от точки до ломаной
Это ещё одна полезная информация. Например, вы хотите узнать, как далеко отстоит дом от шоссе, железнодорожного пути или автобусного маршрута? Или какое расстояние от фермы до реки?
Локализация
Кроме точек на карте имеются регионы. Возможно, вам захочется узнать, находится ли точка в определённом регионе.
Например, находится ли дом в школьном округе с высоким рейтингом, так как это обстоятельство существенно влияет на стоимость недвижимости.
Перекрытие регионов
Перекрытие появляется при пересечении или объединении двух регионов. Например, перекрывает ли зона наводнения (или лесная зона) границы округа или штата.
Географическая кластеризация
Помогает группировать места в географические кластеры, которые могут не совпадать с существующими географическими границами страны или штата.
Например, для сегментации клиентов можно определить кластеры на основе местоположения клиентов и создать функцию, назначающую каждого клиента своему кластеру.
Другим примером могут служить кластеры, создаваемые на базе информации о местоположении COVID-инфицированных людей и используемые при мониторинге распространения заболевания.
Встраивание географических областей
Подобно тому как мы используем встраивание текстовых данных, модель глубокого обучения может быть использована для обучения встраиванию данных о географическом местоположении. Например, встраивания, основанные на почтовом индексе или названии округа, могут использоваться для получения информации о характерных особенностях каждой такой области.
Модели машинного обучения
Как мы только что убедились, геолокационные данные и связанные с ними характеристики могут быть представлены в виде таблиц с числовыми или дискретными переменными. Например, если были получены данные о местоположении дома, то наравне со всеми другими атрибутами, не связанными с местоположением (например временем постройки и площадью дома), могут использоваться геодезические данные.
Другими словами, работа с данными о местоположении в основном связана с подготовкой данных, а не с созданием каких-либо специфических для данной местности моделей машинного или глубокого обучения. Вы можете продолжать пользоваться теми же моделями, которые обычно используются при работе с табличными данными.
Обратите внимание, что значения широты/долготы часто могут использоваться в чистом виде с древовидными моделями, такими как Random Forest или Gradient Boost, не требующими нормализации данных. Другие модели, например нейросетевые, обычно требуют нормализации значений координат.
В этой статье приведено общее описание методов работы с геолокационными данными. Работа с ними открывает богатые возможности для создания множества увлекательных приложений. А прокачать себя в самом машинном обучении — можно на соответствующем курсе.
Узнайте, как прокачаться и в других специальностях или освоить их с нуля: