Датасеты что это такое

Датасет — это просто тест Роршаха (вы видите то, что хотите увидеть)

Опасность апофении в аналитике и способы ее предотвратить. Между ложью и историями, в которых фигурируют данные, очень тонкая грань.

Психологическая ловушка в аналитике данных

Мозг человека обладает удивительной способностью во всем находить паттерны… но у этих паттернов обычно мало общего с реальностью. Мы можем увидеть образ кролика в облаке или лицо Элвиса в картофельных чипсах.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Видишь кролика и профиль Элвиса?

Подумайте о тесте Роршаха — людям показывают разные кляксы и спрашивают, что они видят. Вы не поверите насколько охотно наш разум находит ложные интерпретации случайных наборов данных.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Летучая мышь? Бабочка? Обычная клякса? Это одна из 10 карт теста Роршаха, созданная в 1921 году.

У психологов есть красивое название этому явлению: апофения. Дайте людям хоть какой-то стимул и они найдут вам не только лица и бабочек, но и причину выделить бюджет на ваш любимый проект или запустить систему искусственного интеллекта.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такоеОб авторе: Кэсси Козырков — южноафриканский специалист по данным и статистике. Она основала подразделение Decision Intelligence в Google, где является главным научным сотрудником.

В большинстве наборов данных много случайной информации. Какова вероятность, что ваша аналитика не подвержена апофении? Можно ли доверять своей интерпретации данных?

Наш разум делает с данными то же самое, что и с кляксами

Чем больше способов фрагментации этих наборов данных и чем они сложнее, тем более расплывчатыми стимулами они являются. Они практически умоляют вас распознать в них ложные образы.

Сложные наборы данных практически умоляют увидеть в них то чего там на самом деле нет

Вы уверены, что ваш последний набор данных не является скрытой апофенией?

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Есть еще одно замечательное слово — парейдолия, своего рода это тоже апофения (находить знакомые вещи в расплывчатых сенсорных стимулах). В Японии есть даже музей камней, которые выглядят как лица. Мы живем в удивительное время.

Ложь, наглая ложь и аналитика

Знаю, звучит мрачно, но я еще не закончила. Если вы проходите курсы по анализу данных, это может подлить масла в огонь. Студенты привыкли ожидать, что от каждого исследования данных нужно получить реальное значение. Каждое задание на поисковое исследование подразумевает скрытое сокровище. Только немногие профессоры решаются отправить вас в погоню за недостижимым (для вашего же блага!). Оценить задания без точного ответа сложнее, поэтому студенты обычно не особо обращают на них внимание.

Студенты привыкли, что за каждым набором данных скрывается правда.

Повествование данных это просто отход в сторону от вранья напрямую с использованием данных. Оставим в стороне вопрос о том реальны ли паттерны. Поговорим о множественных интерпретациях. Если вы видите в кляксе образ летучей мыши, это еще не значит, что там нет бабочки, костей таза или пары лис. Если бы я не упомянула лис, вы бы их увидели? Вероятно нет. Психологические механизмы, отвечающие за мотивацию и внимание, играют против вас. Чтобы перестать видеть летучую мышь и начать видеть лишь суперпозицию значений, требуется особый навык.

Как только люди цепляются за свой любимый образ, им становится сложно его развидеть

Проблема в том, что как только люди цепляются за свой любимый образ, им становится сложно развидеть его и увидеть другие образы. Люди склонны сильнее всего верить интерпретации, которая привлекла их внимание в первую очередь. Каждое новое найденное значение снижает мотивацию продолжать поиск. Жонглирование несколькими потенциальными историями без переоценки вашей любимой истории это большой, умственный труд. Увы, не каждый аналитик достаточно дисциплинирован для этого. На самом деле многие аналитики заинтересованы в том, чтобы «доказать» лишь одну сторону истории за счет исследования данных. Зачем развивать навыки, которые мешают вашему кошельку пополняться?

Какого цвета ваш световой меч?

Есть несколько способ доказать историю, используя данные — честный и доскональный. Моя статья о фрагментации данных расскажет вам об этом больше. Исследовательский анализ данных не относится к этим способам. Исследования данных, в которых не подразумевается получение реального значения, напоминают ловлю рыбы. Цвет вашего светового меча зависит от используемой наживки.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Если вы примкнете к темной стороне, вы будете ловить на крючок доказательство, поддерживающее вашу теорию. Вы же уже и так «знаете», что она верная (поэтому можете продать ее какой-нибудь наивной жертве). Вы можете даже не осознавать, что ваш световой меч красного цвета, если вы искренне верите в объективность данных и свою непредвзятость.

Исследования данных, в которых не подразумевается получение реального значения, напоминают ловлю рыбы.

Если у вас достаточно сложный (расплывчатый) набор данных вы найдете паттерн, который сможете подогнать под доказательство своей любимой истории. В этом вся прелесть теста Роршаха. К сожалению, с данными дело обстоит хуже, чем с кляксами. Чем более математический ваш метод, тем убедительней он звучит для тех, кто ничего в этом не смыслит.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое
Спутниковый снимок «лица на Марсе», которое многие люди воспринимают как доказательство существования пришельцев.

Те, кто отказывается принимать темную сторону, тоже рыбачат. Но они ловят нечто другое: вдохновение. Они ищут паттерны, которые могут быть интересными и убедительными, но не принимают их за доказательства, потому что умны. Вместо этого они занимаются непредвзятой аналитикой и стараются отметить у себя в голове как можно больше разных интерпретаций.

Лучшие аналитики пытаются найти как можно больше интерпретаций.

Для этого нужен зоркий глаз и скромный, непредвзятый разум. Хорошие аналитики не пытаюсь заставить заинтересованные лица увидеть только одну сторону истории. Вместо этого они мыслят творчески, чтобы превратить одни и те же данные в множество историй. Они представляют свои выводы так, чтобы вдохновить всех на последующие действия и при этом не вызвать у своего руководства желание свернуть горы из-за излишней самоуверенности.

Непредвзятость дает анализу данных шанс нести в себе какой-то смысл.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Этот бутерброд с сыром на гриле был продан за 28 000$ на аукционе, потому что на нем изображена Дева Мария. А вы что здесь видите?

Наймите отличного аналитика

Черты, которые вы наверняка хотите ищите в хороших аналитиках:

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Забудьте про картофельные чипсы! Этот японский музей с камнями, напоминающими лица, превзошел всех.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Источник

Data science и качественный код

Обычно модели машинного обучения строят в jupyter-ноутбуках, код которых выглядит, мягко говоря, не очень — длинные простыни из лапши выражений и вызовов «на коленке» написанных функций. Понятно, что такой код почти невозможно поддерживать, поэтому каждый проект переписывается чуть ли не с нуля. А о внедрении этого кода в production даже подумать страшно.

Поэтому сегодня представляем на ваш строгий суд превью python’овской библиотеки по работе с датасетами и data science моделями. С ее помощью ваш код на python’е может выглядеть так:

В этой статье вы узнаете об основных классах и методах, которые помогут сделать ваш код простым, понятным и удобным.

Библиотека пока проходит финальную полировку и еще не выложена в открытый доступ.
Данная статья не является полной документацией, а лишь кратким описанием библиотеки и примеров ее использования.
Ваши комментарии помогут доработать библиотеку и включить в нее нужные вам возможности.

Датасет

Основное назначение Dataset — формирование батчей.

или можно вызвать генератор:

Батчи можно собирать строго упорядоченно или хаотически, итерировать бесконечно или сделать ровно 1 цикл по вашим данным. Можно даже на каждом шаге создавать батчи разного размера, если в вашей ситуации это имеет смысл.

Кроме итерирования в Dataset доступна еще одна полезная операция — cv_split — которая делит датасет на train, test и validation. И, что особенно удобно, каждый из них снова является датасетом.

Индекс

Адресация элементов датасета осуществляется с помощью индекса. Это может быть набор идентификаторов (клиентов, транзакций, КТ-снимков) или просто порядковые номера (например, numpy.arange(N) ). Датасет может быть (почти) сколь угодно большим и не помещаться в оперативную память. Но это и не требуется. Ведь обработка данных выполняется батчами.

Создать индекс очень просто:

Когда исходные данные хранятся в отдельных файлах, то удобно строить индекс сразу из списка этих файлов:

Тут элементами индекса станут имена файлов (без расширений) из заданной директории.

Бывает, что элементы датасета (например, 3-мерные КТ снимки) хранятся в отдельных директориях.

Хотя чаще всего вам вообще не придется оперировать индексами — вся нужная работа выполняется внутри, а вы уже работаете только с батчем целиком.

Класс Batch

Во-первых, метод обязательно должен предваряться декоратором @action (чуть позже вы узнаете зачем).

Такой подход позволяет описывать цепочки действий над данными. Причем в ходе обработки данные могут меняться не только по содержанию, но и по формату и структуре.

То есть метод следует писать так словно он обрабатывает один снимок, и индекс этого снимка передается в первом параметре.

Чтобы магия параллелизма сработала, метод необходимо обернуть декоратором, где задается технология параллелизма (процессы, потоки и т.д.), а также функции пре- и постпроцессинга, которые вызываются до и после распараллеливания.

Понятно, что это все добавляет удобства при программировании, однако совсем не избавляет от «думания«, нужен ли тут параллелизм, какой именно и не станет ли от этого хуже.

Выглядит неплохо… но как-то это неправильно, что итерация по батчам смешана с обработкой данных. Да и цикл обучения модели хочется предельно сократить, чтобы там вообще ничего кроме next_batch не было.

Пайплайн

И поскольку обработка каждого батча может занимать много времени, то было бы неплохо формировать батчи заблаговременно. Это особенно важно, если обучение модели выполняется на GPU, ведь тогда простой GPU в ожидании нового батча может запросто «съесть» все преимущества ее высокой производительности.

Параметр prefetch указывает, что надо параллельно считать 3 батча. Дополнительно можно указать технологию распараллеливания (процессы, потоки).

Объединяем датасеты

В реальных задачах машинного обучения вам редко придется иметь дело с единственным датасетом. Чаще всего у вас будет как минимум два набора данных: X и Y. Например, данные о параметрах домов и данные о их стоимости. В задачах компьютерного зрения кроме самих изображений еще есть метки классов, сегментирующие маски и bounding box’ы.

JointDataset

Если вам нужна лишь параллельная итерация по батчам, то удобнее будет создать единый датасет:

А дальше все происходит совершенно стандартным образом:

Только теперь next_batch возвращает не один батч, а tuple с батчами из каждого датасета.

Естественно, JointDataset можно состоять и из пайплайнов:

Операция join

Однако бывают и иные ситуации, когда нужно выполнить операцию с датасетом, применяя к нему данные из другого датасета.

Это лучше продемонстрировать на примере с КТ-снимками. Загружаем координаты и размеры раковых новообразований и формируем из них 3-мерные маски.

Загружаем КТ-снимки и применяем к ним маски, чтобы выделить только раковые области.

И снова отмечу, что никакие загрузки и вычисления, ни с изображениями, ни с масками не будут запущены, пока вы не вызовете pl_images.next_batch

Собираем все вместе

Итак, посмотрим как будет выглядет полный workflow data science проекта.

Выполняем препроцессинг и сохраняем обработанные снимки

Описываем подготовку и аугментацию данных для модели

Формируем тренировочные батчи и обучаем модель

Вот такая вот удобная библиотека, которая помогает значительно быстрее разрабатывать понятный код высокого качества, повторно использовать ранее созданные модели со сложным препроцессингом данных и даже разрабатывать production-ready системы.

А теперь вопрос: что еще стоит добавить в библиотеку? чего вам остро не хватает при работе с данными и моделями?

Источник

Датасет (Dataset)

Датасет – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML):

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такоеДатасет банка о потребителях кредитных продуктов

Датасеты – основа Науки о данных (Data Science), материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).

Традиционные и Большие данные

Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.

Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, «игрушечные» датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).

Виды датасетов

Наука разделяет датасеты на три категории:

Простая запись

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Существует несколько подвидов простых записей:

Графы

Упорядоченные записи

Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:

Атрибуты датасета

Выделяют три основные характеристики датасета:

Специальные методы датасетов

Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.

Встроенный метод библиотеки Pandas read_csv() позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:

Метод позволяет также указать тип разделителя ( sep = ‘:’ ), кодировку ( encoding = ‘utf-8’ ) и многие другие параметры загрузки.

У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.

С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.

Источник

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Компьютерное зрение

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Открытость данных для машинного обучения — это как бесплатное электричество для рынка электрокаров. Поэтому большой вклад в процесс получения новых датасетов вносят исследовательские группы, которые не гонятся за прямой финансовой выгодой. Так, международная группа исследователей, в которую вошли ученые из Стэнфордского университета, а также представители компании Yahoo и Snapchat, разработала новую базу данных Visual Genom и алгоритм оценки изображений, которые позволят системам искусственного интеллекта понимать, что происходит на снимках. Все изображения в базе Visual Genome маркируются таким образом, чтобы содержать информацию обо всех объектах на снимке, их особенностях и связях.

Ранее исследователи из Стэнфордского университета представили датасет ImageNet, который содержит более миллиона изображений, маркированных по содержанию представленного на снимке события. У многих компаний, создающих API для работы с изображениями, в REST-интерфейсах используются лейблы, подозрительно похожие на 1000-категорийную иерархию WordNet из ImageNet.

MIAS (Mammographic Image Analysis Society)

Датасет по мамограммам, на которых врачи могут с помощью алгоритмов распознавать раковые опухоли. Массив представляет собой реальные снимки груди с известными типами заболеваний.

Landsat-8 — это спутник дистанционного зондирования Земли, выведенный на орбиту в 2013 году. Спутник собирает и сохраняет многоспектральные изображения среднего разрешения (30 метров на точку). Данные Landsat-8 доступны с 2015 года вместе с некоторыми выборочными снимками 2013–14 годов. Все новые снимки Landsat-8 появляются каждый день буквально через несколько часов после их создания.

База данных рукописного написания цифр, имеющая подготовленный набор обучающих значений, в размере 60 000 изображений для обучения и 10 000 изображений для тестирования. Цифры, взятые из набора образцов Бюро переписи населения США (с добавлением тестовых образцов, написанных студентами американских университетов), нормализованы по размеру и имеют фиксированный размер изображения. Эта база является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибровки и сопоставления методов распознавания изображений.

Следующая ступень эволюции для тех, кто прошел рукописные цифры. Этот датасет включает в себя 74 000 изображений различных символов (алфавит, цифры и т.д.).

Данные биометрического распознавания (фронтальное изображение лица), полученные с помощью движка с открытым исходным кодом.

Номера домов из Google Street View. 73 257 номеров для обучения, 26 032 номера для тестирования и 531 131 несколько менее сложный образец, чтобы использовать в качестве дополнительных учебных данных.

Естественные языки

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Корпус данных веб-страниц объемом более 540 терабайт — состоит из более 5 миллиардов веб-страниц. Этот набор данных свободно доступен на Amazon S3.

Yelp — сайт для поиска на местном рынке услуг, например, ресторанов или парикмахерских, с возможностью добавлять и просматривать рейтинги и обзоры этих услуг. За долгие годы работы накопил огромное количество данных от пользователей сервиса. Набор данных включает в себя 4 700 000 отзывов на 156 000 компаний от более 1 000 000 пользователей.

Набор данных представляет собой коллекцию текста из более чем 100 млн словоупотреблений, извлеченных из проверенных Хороших и Избранных статей Википедии.

Этот набор новостных статей CNN содержит 120 000 пар вопросы + контекст/ответы. Вопросы написаны людьми на естественном языке. На вопросы могут отсутствовать ответы, а ответы могут быть многоязыковыми. Набор данных Maluuba разработан, чтобы помочь создать «умных» чат-ботов, которые могут поддерживать принятие решений в сложных условиях.

Базовые данные, состоящие из пар (вопросы + контекст/ответы), извлеченных из детских книг, доступных в рамках Проекта Гутенберг, направленного на создание и распространение электронной универсальной библиотеки. Проект, основанный в 1971 году, предусматривает оцифровку и сохранение в текстовом формате различных произведений мировой литературы — в основном это тексты, находящиеся в свободном доступе на всех популярных мировых языках. Для бесплатной загрузки доступно более 53 000 документов.

Датасет анализа тональности «комментариев» в Twitter. Содержит 1 578 627 твитов с указанием положительных и отрицательных настроений.

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Всеобъемлющий словарь звуковых событий. 632 класса аудиособытий и коллекция из 2 084 320 голосовых 10-секундных отрезков из видео на YouTube (более 5 тысяч часов аудиозаписей).

Датасет англоязычной речи, содержащий стенограммы 40 телефонных переговоров на английском языке. Данные 2000 HUB5 English сосредоточены на разговорной речи по телефону с конкретной задачей транскрипции речи в текст.

Аудиозаписи 1495 выступлений на TED с полной расшифровкой.

«Датасет» датасетов

Датасеты что это такое. Смотреть фото Датасеты что это такое. Смотреть картинку Датасеты что это такое. Картинка про Датасеты что это такое. Фото Датасеты что это такое

Mldata (machine learning data set repository) — репозиторий набора данных для машинного обучения, содержащий более 800 общедоступных архивных наборов данных с рейтингами, представлениями, комментариями.

Крупнейший репозиторий реальных и модельных задач машинного обучения, ведущий свою историю с 1987 года. Содержит реальные данные по прикладным задачам биологии, медицины, физики, техники, социологии и других сфер, ставшие классическими для работы различных алгоритмов. Датасеты этого репозитория часто используются научным сообществом для эмпирического анализа алгоритмов машинного обучения. Включает интересные данные по текстам из спам-писем UCI’s Spambase, которые можно использовать в качестве платформы для обучения персонализированных спам-фильтров.

Датасеты для «Элементов статистического обучения», созданные под руководством профессора Стэнфордского университета Тревора Хасти, представляют собой наборы данных в различных категориях, таких как минеральная плотность костей скелета, страны, галактика, информационные данные по маркетингу, спам, почтовые индексы и многих других.

AWS предлагает несколько интересных датасетов, включая всю электронную почту Enron, синтаксические n-граммы Google Books, данные NASA NEX (информация о климате, геологии и состоянии мировой флоры объемом более 20 терабайт) и многое другое.

Эта платформа, где все пользователи могут обмениваться своими датасетами. У них более 350 датасетов и более 200 из них значатся в качестве рекомендуемых платформой.

Несколько сотен датасетов, классифицированных по различным категориям в разных областях. Увы, не содержит описания самих датасетов.

Проект data.world сам о себе говорит как о «социальной сети для людей с датасетами», но правильнее описать его как «GitHub для данных». Это место, где вы можете искать, копировать, анализировать и загружать датасеты. Кроме того, вы можете загрузить свои данные в data.world и использовать его для совместной работы с другими пользователями.

Одно из ключевых отличий data.world — это инструменты, которые они создали для упрощения работы с данными. Система поддерживает SQL-запросы для изучения данных и объединения нескольких датасетов, у них также есть SDK, упрощающий работу с данными в выбранном вами инструменте (подробно об этом можно прочитать в tutorial on the data.world Python SDK).

Разработчики часто забывают, что при создании новых ИИ-решений или продуктов самое сложное — не алгоритмы, а сбор и маркирование коллекции данных. Стандартные датасеты могут использоваться для валидации или в качестве отправной точки построения более специализированного решения.

Другое популярное заблуждение кроется в идее, что решение проблем, связанных с одним датасетом, равнозначно тщательному продумыванию всего своего продукта. Используйте эти датасеты для валидации или проверки своих идей, но не забывайте тестировать или прототипировать работу продукта, и добудьте новые, более достоверные данные, которые помогут отточить ваш продукт. Успешные компании, чей бизнес построен на данных, обычно уделяют много внимания сбору новых, проприетарных данных, позволяющих повысить производительность без увеличения рисков.

Источники (по ссылкам вы также найдете еще больше примеров интересных датасетов):

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *