🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «
Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать.
Итак, мы прошли следующие темы.
1.
Начало работы в R (
текст,
видео).
2.
Таблицы. Опрятные данные (
текст,
видео). Датасет: М. Кондра, Е. Казакова, «
Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.
3.
Визуализации (
текст,
видео). Датасет: Т. Андервуд и др.,
“NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.
4.
Циклы, условия, функции (
текст,
видео).
5.
Функционалы в анализе данных (
текст,
видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.
6.
Импорт: JSON (
текст,
видео). Датасет: «
Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «
Теории большого взрыва».
7.
Импорт: XML (
текст,
видео). Датасет: Д. Скоринкин,
“Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы
Dracor.
8.
Публикация с Quarto (
текст,
видео).
📚 Под каждую тему (кроме первой) был подобран
гуманитарный датасет. Причем данные пришлось искать не только для лекционной части (см. выше), но и под каждое домашнее задание (это оставлю за кадром, чтобы сохранить интригу для будущих поколений). Поиск данных оказался самой сложной частью работы, и я хочу поблагодарить коллег, которые ими делятся. Это бесценно.
💙 С
проверкой домашних работ мне очень помогает студентка второго курса магистратуры
София Федотова. А еще мы с Софией научились настраивать автоматические тесты и оценивание, это просто спасает, потому что группа довольно большая, около 20 человек, и кода много.
📅 Впереди еще три модуля, и, если доживем, по итогам каждого я буду делиться такими обзорами. Для меня это важно еще и потому, что сейчас деление курса на темы немного расходится с реальными темпами прохождения материала — а значит структуру курса придется еще раз перерабатывать с опорой на эти заметки.
🐈 По правде говоря, я вообще мало что успеваю помимо постоянных доработок и переработок (и поэтому нечасто сюда пишу). Но результат, кажется, неплохой: во всяком случае, недавно кто-то из студентов сказал, что уже пользуется R на работе. Для всего двух месяцев освоения — неплохо.
Идем дальше.
#tar2024