Разработка алгоритмов анализа киносценариев с помощью глубокого обучения

ksfei121

Был(а) на сайте 6 часов назад

Раздел

Программирование

Предмет

Разработка мобильных приложений

Тип

Дипломная работа

Просмотров

287

Покупок

Антиплагиат

Не указан

Размещена

9 Июл 2021 в 00:09

ВУЗ

Не указан

Курс

4 курс

Стоимость

900 ₽

Демо-файлы

ПРИЛОЖЕНИЕ 1 отрывок ПРИЛОЖЕНИЕ 1 отрывок

14.8 Кбайт 14.8 Кбайт

Файлы работы

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

Разработка алгоритмов анализа киносценариев с помощью глубокого обучения

2.7 Мбайт 900 ₽

Описание

Одна из проблем, связанных с обработкой больших текстовых документов, заключается в том, что большинство датасетов для обучения нейронных сетей в области обработки естественного языка содержат короткие тексты. А наличие хороших данных в большом объеме – важное условие для обучения нейронных сетей. Данная работа направлена на создание корпуса данных с большими текстовыми документами и на исследование применимости языковых моделей в обработке больших текстовых документов на примере найденных и обработанных данных. В качестве таких данных предлагается использовать киносценарии. Это, как правило, тексты, состоящие из 20000- 30000 слов. При этом киносценарии содержат определенную структуру, которая потенциально может оказаться полезной при работе с языковыми моделями. Имеющиеся в открытом доступе датасеты содержат относительно небольшое количество сценариев, так что одной из главных задач было найти, собрать и обработать достаточное количество киносценариев.

Целью работы является разработка алгоритмов анализа киносценариев с применением методов глубокого обучения.

Основные задачи, поставленные для достижения указанной цели:

– изучение литературы по анализу данных в сфере кинематографии;

– поиск источников с киносценариями;

– сбор данных с найденных источников;

– обработка собранных данных;

– разработка и реализация методов анализа собранных данных;

– проведение экспериментов, валидация гиперпараметров;

– анализ полученных результатов.

Оглавление

ВВЕДЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1. Машинное обучение в области кинематографии: задачи и

данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1. Решаемые задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2. Существующие корпусы данных..................................................... 10

2. Создание нового корпуса данных.......................................................... 11

2.1. Сбор данных...................................................................................... 11

2.2. Обработка данных: текстовые файлы.............................................. 13

2.3. Обработка данных: сопоставление персонажей.............................. 17

2.4. Статистика по собранному корпусу................................................ 23

3. Разработка алгоритмов анализа собранных данных........................... 26

3.1. Методы глубокого обучения для решения задач из

области обработки естественного языка.......................................... 26

3.1.1. Архитектура Transformer........................................................ 26

3.1.2. Языковая модель BERT........................................................... 28

3.2. Дополнение данных как метод улучшения существующих под- ходов к решению задач................................................................................... 32

3.3. Разработка метода дополнения данных на примере задачи NLI . 37 3.3.1. Описание задачи NLI.......................................................................... 37

3.3.2. Предложенный метод дополнения данных............................ 39

3.3.3. Эксперименты и анализ результатов...................................... 41

3.4. Аннотация собранного корпуса с киносценариями....................... 44

3.5. Задачи для собранного корпуса....................................................... 47

3.5.1. Описание задач......................................................................... 47

3.5.2. Методы решения поставленных задач................................... 48

3.5.3. Модификация методов на основе трехэтапного обучения и дополнения данных....................................................................................... 52

3.5.4. Эксперименты и анализ результатов...................................... 53

ЗАКЛЮЧЕНИЕ............................................................................................. 73

СПИСОК ЛИТЕРАТУРЫ............................................................................. 80

ПРИЛОЖЕНИЯ............................................................................................ 88

Список литературы

1. Jacob Eisenstein. Natural Language Processing /Jacob Eisenstein; MIT Press, 2018. – 536 c. – ISBN 9780262042840536.

2. Daniel Zhang. Artificial Intelligence Index Report / Daniel Zhang, Saurabh Mishra // URL: https://aiindex.stanford.edu/wp- content/uploads/2021/03/2021-AI-Index-Report_Master.pdf (дата обра- щения: 24.05.21).

3. Nathan Benaich. State of AI Report 2020 / Nathan Benaich, Ian Hogarth // URL: https://www.stateof.ai/ (дата обращения: 24.05.21).

4. S. Ransbotham. Winning With AI / S. Ransbotham, S. Khodabandeh, R. Fehling, B. LaFountain, D. Kiron // MIT Sloan Management Review and Boston Consulting Group. – 2019.

5. R. Rosenfeld. Two decades of statistical language modeling: where do we go from here? / R. Rosenfeld // Proceedings of the IEEE. – 2000. – C. 1270-1278.

6. Jay M. Ponte. A language modeling approach to information retrieval / Jay M. Ponte, W. Bruce Croft // Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. – 1998. – C. 275–281.

7. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). – 2019. – С. 4171–4186.

8. Alec Radford. Language Models are Unsupervised Multitask Learners / Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever // URL: https://d4mucfpksywv.cloudfront.net/better-language- models/language-models.pdf (дата обращения: 24.05.21).

9. Tom Brown. Language Models are Few-Shot Learners / Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss // Advances in Neural Information Processing Systems 33. – 2020.

10. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // Advances in Neural Information Processing Systems 30. – 2017. – С. 5998–6008.

11. Nikita Kitaev. Reformer: The Efficient Transformer / Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya // URL: https://arxiv.org/abs/2001.04451.

12. Sinong Wang. Linformer: Self-Attention with Linear Complexity / Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma // URL: https://arxiv.org/abs/2006.04768.

13. Iz Beltagy. Longformer: The Long-Document Transformer / Iz Beltagy, Matthew E. Peters, Arman Cohan // URL: https://arxiv.org/abs/2004.05150.

14. Kaiming He. Deep Residual Learning for Image Recognition / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2016. – C. 770-778.

15. Jehoshua Eliashberg. From Story Line to Box Office: A New Approach for Green-Lighting Movie Scripts / Jehoshua Eliashberg, Sam K. Hui University of Penn // Management Science, 53 (6) – 2007. – C. 881-893.

16. Marton Mestyan. Early Prediction of Movie Box Office Success Based on Wikipedia Activity Big Data / Taha Yasseri, Janos Kertesz // URL: https://arxiv.org/abs/1211.0970.

17. You-Jin Kim. Prediction of a Movie’s Success From Plot Summaries Using Deep Learning Models / You-Jin Kim, Jung-Hoon Lee, Yun-Gyung Cheong

// Proceedings of the Second Storytelling Workshop. – August 1, 2019. – C. 127–135.

18. Matthew Peters. Deep Contextualized Word Representations / Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). – 2018. – C. 2227–2237.

19. Ming-Chang Chiu. Screenplay Quality Assessment: Can We Predict Who Gets Nominated? / Ming-Chang Chiu, Tiantian Feng, Xiang Ren, Shrikanth Narayanan // Proceedings of the 1st Joint Workshop on Narrative Understanding, Storylines, and Events. – July 9, 2020.– C. 11–16.

20. Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola, and Eduard H. Hovy. 2016. Hierarchical attention networks for document classification. Proceedings of HLT-NAACL. – 2016.

21. Mahmoud Azab. Representing Movie Characters in Dialogues / Mahmoud Azab, Noriyuki Kojima, Jia Deng, Rada Mihalcea1 // Proceedings of the 23rd Conference on Computational Natural Language. – November 3-4, 2019. – C. 99–109.

22. Victor R. Martinez. Victim or Perpetrator? Analysis of Violent Character Portrayals from Movie Scripts / Victor R. Martinez, Krishna Somandepalli, Karan Singla, Anil Ramakrishna, Yalda T. Uhls, Shrikanth Narayanan // URL: https://arxiv.org/ftp/arxiv/papers/2008/2008.08225.pdf.

23. Alexandra Schofield. Gender-Distinguishing Features in Film Dialogue/ Alexandra Schofield Leo Mehr // Conference: Proceedings of the Fifth Workshop on Computational Linguistics for Literature. – January, 2016.

24. Qiang Liu. Modeling Dyadic Conversations for Personality Inference // Journal of Latex class files. – august 2015.

25. Mahsa Shafaei. Age Suitability Rating: Predicting the MPAA Rating Based on Movie Dialogues / Mahsa Shafaei, Niloofar Safi Samghabadi, Sudipta Kar and Thamar Solorio // Proceedings of the 12th Conference on Language Resources and Evaluation. – 11–16 May 2020. – C.1327–1335.

26. Evgeny Kim. Frowning Frodo, Wincing Leia, and a Seriously Great Friendship: Learning to Classify Emotional Relationships of Fictional Characters / Evgeny Kim and Roman Klinger // Proceedings of NAACL-HLT.

– June 2 - June 7, 2019. – C. 647–653.

27. Saif Mohammad. Emotions Evoked by Common Words and Phrases: Using Mechanical Turk to Create an Emotion Lexicon / Saif Mohammad, Peter Turney // Proceedings of the NAACL-HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text. – 2010.

28. Philip John Gorinski and Mirella Lapata. What’s this movie about? a joint neural network architecture for movie content analysis // Proceedings of NAACL-HLT 2019. – June 2 – June 7, 2019. – C. 647–653.

29. Anil Ramakrishna, Victor R. Martinez, Nikos Malandrakis, Karan Singla, and Shrikanth Narayanan. Linguistic analysis of differences in portrayal of movie characters // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. – July 30 - August 4, 2017. – C. 1669–1678.

30. Rafael E. Banchs. Movie-DiC: a Movie Dialogue Corpus for Research and Development // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. – 8-14 July 2012. – C. 203–207.

31. Cornell Movie Dialog Corpus // URL: https://www.kaggle.com/Cornell- University/movie-dialog-corpus?select=raw_script_urls.tsv.

32. David R. Automated Screenplay Annotation for Extracting Storytelling Knowledge / David R. Winer, R. Michael Young // URL: https://aaai.org/ocs/index.php/AIIDE/AIIDE17/paper/view/15869 .

33. Christopher D. Manning. An Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze; Cambridge University Press, 2008. – 544 c. – ISBN 0521865719.

34. Dzmitry Bahdanau. Neural Machine Translation by Jointly Learning to Align and Translate / Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio // URL: https://arxiv.org/abs/1409.0473.

35. Jeremy Howard. Universal Language Model Fine-tuning for Text Classification / Jeremy Howard, Sebastian Ruder // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2018. – C. 328–339.

36. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.

37. Yonghui Wu. Google’s neural machine translation system: Bridging the gap between human and machine translation / Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey // URL: https://arxiv.org/abs/1609.08144.

38. Yada Pruksachatkun. Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work? / Yada Pruksachatkun, Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman // The 58th Annual Meeting of the Association for Computational Linguistics. – 2020.

Вам подходит эта работа?

Похожие работы

Разработка мобильных приложений

[ОТВЕТЫ] СИНЕРГИЯ. Коллективная разработка приложений (новые тесты 2024г.) (подходят на 90+баллов из 100)

350 ₽

@AlenaPE

Тест Тест

26 Мар в 10:32

0 покупок

Разработка мобильных приложений

💯 Разработка программных модулей [Тема 1-28] (ответы на тест Синергия / МОИ / МТИ / МосАП, март 2024)

300 ₽

k4linkin

Тест Тест

15 Мар в 20:59

0 покупок

Разработка мобильных приложений

💯 Коллективная разработка приложений (ответы на тест Синергия / МОИ / МТИ / МосАП, март 2024)

300 ₽

k4linkin

Тест Тест

6 Мар в 20:43

1 покупка

Разработка мобильных приложений

💯 Основы программирования мобильных игр [Тема 1-2] (ответы на тест Синергия / МОИ / МТИ / МосАП, январь 2024)

300 ₽

k4linkin

Тест Тест

15 Янв в 16:32

3 покупки

Разработка мобильных приложений

[Росдистант] Технология разработки мобильных приложений (тесты, вопросы, ответы)

400 ₽

enikonov

Тест Тест

2 Дек 2023 в 22:51

143

0 покупок

Другие работы автора

Web-программирование

Разработка информационной системы управления центром косметологии

999 ₽

ksfei121

Дипломная работа Дипломная

25 Окт 2023 в 15:57

112

0 покупок

Web-программирование

Разработка информационной системы для управления кинотеатром на платформе 1С

999 ₽

ksfei121

Дипломная работа Дипломная

25 Окт 2023 в 00:40

137 +1

0 покупок

Web-программирование

Разработка маркетплейса для продажи товаров на Java Spring

999 ₽

ksfei121

Дипломная работа Дипломная

25 Окт 2023 в 00:18

217

2 покупки

Web-программирование

Разработка автоматизированной информационной системы автомойки на платформе 1С

999 ₽

ksfei121

Дипломная работа Дипломная

23 Окт 2023 в 00:31

151

0 покупок

Основы программирования

Информационная система управления клиентами студии на платформе 1С:Предприятие

999 ₽

ksfei121

Дипломная работа Дипломная

22 Окт 2023 в 00:56

157 +1

0 покупок

Web-программирование

Разработка автоматизированной информационной системы учета рабочего времени внештатных сотрудников компании

999 ₽

ksfei121

Дипломная работа Дипломная

21 Окт 2023 в 20:46

103

0 покупок

Web-программирование

Разработка интернет магазина спортивной обуви

999 ₽

ksfei121

Дипломная работа Дипломная

21 Окт 2023 в 20:40

107 +2

0 покупок

Основы программирования

Разработка нейросетевого приложения для отслеживания лиц в супермаркете

999 ₽

ksfei121

Дипломная работа Дипломная

21 Окт 2023 в 20:20

153 +2

1 покупка

Основы программирования

Анализ информационной модели управления заказами в пиццерии

999 ₽

ksfei121

Дипломная работа Дипломная

21 Окт 2023 в 20:00

119 +4

0 покупок

Основы программирования

Система управления бронированием конференц-залов на платформе 1С

999 ₽

ksfei121

Дипломная работа Дипломная

19 Окт 2023 в 19:01

141

0 покупок

Основы программирования

Разработка алгоритма подбора для персонального ассистента в выборе имиджа на базе Python

999 ₽

ksfei121

Дипломная работа Дипломная

19 Окт 2023 в 18:51

192 +1

0 покупок

Основы программирования

Разработка информационной системы для автопредприятия такси на языке С#

999 ₽

ksfei121

Дипломная работа Дипломная

19 Окт 2023 в 18:18

108

0 покупок

Основы программирования

Разработка автоматизированной информационной системы учета деятельности автосервиса на платформе 1С

999 ₽

ksfei121

Дипломная работа Дипломная

17 Окт 2023 в 23:52

75 +1

0 покупок

Web-программирование

Разработка системы защиты корпоративной сети на основе IPS Suricata

999 ₽

ksfei121

Дипломная работа Дипломная

17 Окт 2023 в 21:51

0 покупок

Основы программирования

Информационная система складского учета товаров сети магазинов канцтоваров

999 ₽

ksfei121

Дипломная работа Дипломная

17 Окт 2023 в 21:48

0 покупок

Основы программирования

Автоматизированная система составления расписания учебных занятий на основе нейронных сетей

999 ₽

ksfei121

Дипломная работа Дипломная

17 Окт 2023 в 19:46

0 покупок

Web-программирование

Разработка информационной системы управления продажами обуви

999 ₽

ksfei121

Дипломная работа Дипломная

19 Сен 2023 в 00:30

0 покупок

Web-программирование

Разработка информационной системы онлайн маркетплейса для краткосрочного и долгосрочного проживания

999 ₽

ksfei121

Дипломная работа Дипломная

19 Сен 2023 в 00:25

0 покупок

Web-программирование

Разработка информационной системы торговли строительными материалами на платформе 1С

999 ₽

ksfei121

Дипломная работа Дипломная

18 Сен 2023 в 00:52

127 +1

0 покупок

Web-программирование

Разработка маркетплейса для продажи уникальных изделий ручного труда

999 ₽

ksfei121

Дипломная работа Дипломная

18 Сен 2023 в 00:50

1 покупка

Предыдущая работа

СИНЕРГИЯ Правоохранительные органы Ответы 📝Тесты (80/100)

Следующая работа

Разработка и продвижение мобильного игрового приложения на основе платформы Unity с использованием языка программирования C## и базы данных Microsoft SQL Server

Закажите новую работу, выполненную по вашим требованиям у эксперта.

Темы журнала

Статьи справочника

Прямой эфир