ru
Дж. Вандер Плас

Python для сложных задач: наука о данных и машинное обучение

Уведоми ме, когато книгата е добавена
За да прочете тази книга, качете я във формат EPUB или FB2 в Bookmate. Как се качва книга?
Книга «Python Data Science Handbook» — это подробное руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например: 1) как мне считать этот формат данных в мой скрипт? 2) Как преобразовать, очистить эти данные и манипулировать ими? 3) Как визуализировать данные такого типа? Как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?
Тази книга не е налична в момента
901 печатни страници
Година на публикуване
18
Вече чели ли сте я? Какво мислите за нея?
👍👎

Цитати

  • Александр Проскуринцитирапреди 2 години
    Дональда Кнута: «Лучше не держать в голове подобные “малые” вопросы производительности, скажем, 97 % времени: преждевременная оптимизация — корень всех зол»
  • Kirill Kruglikovцитирапреди 4 години
    Это ценный показатель, поскольку он наглядно демонстрирует нам реакцию нашей модели на увеличение объема обучающих данных. В частности, после того момента, когда кривая обучения уже сошлась к какому-то значению (то есть когда кривые обучения и проверки уже близки друг к другу), добавление дополнительных обучающих данных не улучшит аппроксимацию существенно! Эта ситуация отражена на левом рисунке с кривой обучения для модели второй степени.

    Единственный способ улучшения оценки уже сошедшейся кривой — использовать другую (обычно более сложную) модель. Это видно на правом рисунке: перейдя к более сложной модели, мы улучшаем оценку для точки сходимости (отмеченную штриховой линией) за счет более высокой дисперсии модели (соответствующей расстоянию между оценками эффективности для обучения и проверки). Если бы нам пришлось добавить еще больше точек, кривая обучения для более сложной из этих моделей все равно в итоге бы сошлась.

    Построение графика кривой обучения для конкретных модели и набора данных облегчает принятие решения о том, как продвинуться еще дальше на пути улучшения анализа данных.
  • Kirill Kruglikovцитирапреди 4 години
    Таким образом, мы видим, что поведение кривой проверки зависит не от одного, а от двух важных факторов: сложности модели и количества точек обучения. Зачастую бывает полезно исследовать поведение модели как функции от количества точек обучения. Сделать это можно путем использования постепенно увеличива­ющихся подмножеств данных для обучения модели. График оценок для обучения/проверки с учетом размера обучающей последовательности известен под названием кривой обучения (learning curve).

    Поведение кривой обучения должно быть следующим.

    • Модель заданной сложности окажется переобученной на слишком маленьком наборе данных. Это значит, что оценка эффективности для обучения будет относительно высокой, а оценка эффективности для проверки — относительно низкой.

    • Модель заданной сложности окажется недообученной на слишком большом наборе данных. Это значит, что оценка эффективности для обучения будет снижаться, а оценка эффективности для проверки — повышаться по мере роста размера набора данных.

    • Модель никогда, разве что случайно, не покажет на проверочном наборе лучший результат, чем на обучающей последовательности. Это значит, что кривые будут сближаться, но никогда не пересекутся.

    Учитывая эти особенности, можно ожидать, что кривая обучения будет выглядеть качественно схожей с изображенной на рис. 5.32.

    Заметная особенность кривой обучения — сходимость к конкретному значению оценки при росте числа обучающих выборок. В частности, если количество точек достигло значения, при котором данная конкретная модель сошлась, то добавление новых обучающих данных не поможет! Единственным способом улучшить качество модели в этом случае будет использование другой (зачастую более сложной) модели.

На лавиците

fb2epub
Плъзнете и пуснете файловете си (не повече от 5 наведнъж)