Научный семинар Лаборатории нейронных систем и глубокого обучения

Здравствуйте, уважаемые участники!

Следующий семинар состоится в пятницу, 29 апреля.
Начало: 18:00
Аудитория: 105
Место: г. Долгопрудный, Институтский переулок, д.9 (БиоФармКластер МФТИ)

Подробней о следующем семинаре:

Дата Описание Материалы Quiz
29.04.2016 GRUs and LSTMs — for machine translation Suggested Readings:

  1. [Long Short-Term Memory]
  2. [Gated Feedback Recurrent Neural Networks]
  3. [Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling]

[slides]
[video]

Ссылка

Вопросы к следующему семинару необходимо записывать сюда http://goo.gl/forms/xvTJ7zeOok. Приоритет будет отдан вопросам по теме 8-ой лекции.

В следующую пятницу планируется выступление команд с презентацией о своем проекте. В презентации должно быть отражено следующее:

  • Обзор материалов: основные результаты из статей, используемых в проекте.
  • Постановка задачи, включая описание датасета, ожидаемых результатов и метода их оценки.
  • Метод решения.
  • План работ по неделям.

На презентацию отводится 20 минут.

С уважением,
руководители семинара: к.ф.-м.н. Бурцев Михаил Сергеевич, к.ф.-м.н. Ботвиновский Евгений Александрович.

edu@deephack.me
Регистрация

форум

P.S.: Напоминаем, что к семинару необходимо посмотреть видеолекцию и подготовить список вопросов.

Список вопросов, рассмотренных на 7-ом семинаре:

  1. slide 26. Как оценить вероятность p(w_t | c_t)? Если мы не используем историю, то какую дополнительную информацию все-таки используем? (почему не выдаем всегда одно и то же слово для данного класса? Или выдаем?)
  2. Верно ли что в “идеальной” RNN (нет проблем с исчезающим или взрывающимся градиентом) мы совершенно не забываем историю? Или она как-то перезаписывается? Почему не происходит перенасыщения вектора состояний? (Почему не требуется использовать экспоненциальное затухание?)
  3. В GRU и LSTM, почему в некоторых гейтах используется tanh, а в некоторых sigmoid? В этом есть какая-то интуиция или люди попробовали разные комбинации и увидели, что эта работает лучше всего?
  4. Кажется, что можно как-то делать сырой language modeling с помощью RNN для next word prediction, а потом как-то учитывать синтаксис, пунктуацию языка с помощью char-RNN. Не было ли работ в таком ключе?
  5. почему dropout не слишком полезен для RNN?
  6. Слайд 6. “Condition the neural network on all previous words”: Что имеется в виду под “all previous words”: датасет или окно?
  7. На слайде 7 RNN определяется без bias term, но есть определения с bias term. Почему?
  8. Слайд 16. Vanishing grad объясняется через неравенство норм. Матрица W меняется в ходе обучения RNN. Верхняя оценка ее нормы ||W|| = (бета W) = const или зависит от времени (time step)?