Третий научный семинар Лаборатории нейронных систем и глубокого обучения

Здравствуйте, уважаемые участники!

Следующий семинар состоится в пятницу, 25 марта.
Начало: 18:00
Аудитория: 105
Место: г. Долгопрудный, Институтский переулок, д.9 (БиоФармКластер МФТИ)

Подробней о следующем семинаре:

Дата Описание Материалы Quiz
25.03.2016 Advanced word vector representations: language models, softmax, single layer networks Suggested Readings:

  1. [GloVe: Global Vectors for Word Representation]
  2. [Improving Word Representations via Global Context and Multiple Word Prototypes]

[Lecture Notes 2]

[slides]
[video]

ссылка

Вопросы к следующему семинару необходимо записывать сюда http://goo.gl/forms/rZlM9qHQ76. Приоритет будет отдан вопросам по теме третьей лекции.

С уважением,
руководители семинара: к.ф.-м.н. Бурцев Михаил Сергеевич, к.ф.-м.н. Ботвиновский Евгений Александрович.

edu@deephack.me

P.S.: Напоминаем, что к семинару необходимо посмотреть видеолекцию и подготовить список вопросов.

Список вопросов, рассмотренных на втором семинаре:

  1. Glove, word2vec базируются на совместной встречаемости. Как обучать векторное представление слова используя при этом дополнительную информацию? Например часть речи, суффиксы, префиксы, синтаксис, семантику.
  2. Есть ли какое-нибудь математическое обоснование использования 2 векторов для представления слова в word2vec?
  3. Несколько первых \vec S в SVD-разложении – можно ли понимать их как часто встречающиеся предложения в тексте?
  4. dense vector = представление слова в S-базисе?
  5. как применить коэфф корреляции Пирсона вместо подсчета количества слов в контексте (слайд 15)
  6. как использовать negative prediction(sampled softmax тоже самое?) чтобы оптимизировать функционал в word2vec (слайд 27)
  7. если мы используем по два вектора на каждое слово: input и output, то какое в итоге берется как векторное представление этого слова? (слайд 23)
  8. Если подействовать cooccurence-матрицей на некоторый текст, есть ли какой-то смысл у результата?
  9. Как они используют корреляцию пирсона для замены подсчета числа пар слов? Между какими векторами ее берут и что они означают?
  10. Чем являются входные и выходные вектора в описанном алгоритме? Почему мы максимизируем только по входным? (Верно ли что выходные вектора остаются статическими? или они просто зависят от входных?)
  11. Было описано несколько способов побороть проблему больших словарей при испольовании градиентного спуска и sofMax веройтностной функции. Как конкретно они работают и как их реализовать?
  12. Каким образом SVD разложение дает требуемый результат?
  13. Как сильно влияет то, будем ли мы учитывать знаки препинания и прочие системные символы, на график распределения слов?
  14. Насколько эффективен метод поиска синонимов через SVD в языках с особой письменностью? (Арабский, Китайский)
  15. Как обрабатываются знаки препинания? Как обрабатывают текст, в котором присутствует иностранный язык?
  16. Используется ли аналитическое выражение для производной функционала ошибки при практической реализации алгоритма?
  17. Почему используется softmax, а не что-нибудь попроще?
  18. Почему используется cap, а не scaling, например?
  19. насколько couple of random pairs должна быть cuople? или всё таки составлять процент от true pairs?
  20. Можно ли как-то разделить синтаксис и семантику в представлениях слов?
  21. Использовалась ли модель word2vec в топовых решениях DeepHack.Q&A? Расскажите поподробнее про решения топовых команд.
  22. Какие изменения вносятся в формулы для учёта словосочетаний?
  23. Почему оптимальное число слов, выбираемых для negative sampling, очень мало по сравнению с общим числом слов? (k = 2..5 для больших наборов данных)
  24. Часто в задачах необходимо получить векторное представление документов, а не слов. Одним из способов является Bag-Of-Words или TFIDF (с ограниченным размером словаря). Если взять вектора из w2v для слов документа, то как их можно агрегировать в профиль документа? (Тривиальный, плохо работающий способ — усреднение)