Дисциплини

2 Обработка на естествен език

Седмичен хорариум 2+0+2
Форма на контрол Изпит

Анотация


Дисциплината "Обработка на естествени езици" е ориентирана към специализираната подготовка на студентите от специалност “Изкуствен интелект” в Технически университет – Варна. Основната цел е да запознае студентите с приложението на методи и алгоритми от машинното обучение за анализ и класификация на текстови данни.
Курсът обхваща езиково моделиране, предварителна обработка на текст, представяне и индексиране на документи, както и оптимизация на характеристичното пространство чрез филтриране на стоп думи и морфологичен анализ. Разглеждат се различни модели за текстова класификация, включително Наивен Бейсов класификатор, Метод на опорните вектори (SVM), дървовидни модели и ансамблови техники. Лабораторните упражнения включват програмиране на NLP приложения с Python, използвайки NLTK, spaCy, Hugging Face, Scikit-learn и TensorFlow. Въвеждат са методи за дълбоко обучение, като невронни мрежи и трансформъри (BERT, GPT), които намират приложение в модерните NLP системи. Курсът завършва с практически проекти, в които студентите прилагат наученото за разработване на реални NLP решения.
Дисциплината се основава на предхождащите я дисциплини: „Теория на вероятностите за компютърни науки“, „Основи на изкуствения интелект“, „Въведение в машинното обучение“, „Избрани методи за машинно обучение“ и други. Дисциплината улеснява процеса на дипломното проектиране и по-нататъшната практическа работа на студенти по различни софтуерни проекти.

Съдържание


  • Основи на обработката на естествен език (NLP) – концепции и приложения
  • Предварителна обработка на текстови данни
  • Представяне и индексиране на текстови документи
  • Оптимизация на характеристичното пространство
  • Изчисляване на характеристични тегла в документи
  • Основи на класификацията на текст чрез машинно обучение
  • Оценка на качеството на класификационните алгоритми
  • Метрики за оценка на текстова класификация
  • Класификация на текст чрез Наивен Бейсов класификатор
  • Класификация на текст с Метод на опорните вектори (SVM)
  • Дървовидни модели за класификация на текст
  • Класификация на текст с метод k най-близки съседи (k-NN)
  • Ансамблови методи за класификация на текст
  • Класификация на текст чрез невронни мрежи
  • Практически проекти в текстовата класификация