44/45/46-6 Обработка на естествен език
Анотация
Дисциплината "Обработка на естествени езици" е ориентирана към специализираната подготовка на студентите от специалност “Изкуствен интелект” в Технически университет – Варна. Основната цел е да запознае студентите с приложението на методи и алгоритми от машинното обучение за анализ и класификация на текстови данни.
Курсът обхваща езиково моделиране, предварителна обработка на текст, представяне и индексиране на документи, както и оптимизация на характеристичното пространство чрез филтриране на стоп думи и морфологичен анализ. Разглеждат се различни модели за текстова класификация, включително Наивен Бейсов класификатор, Метод на опорните вектори (SVM), дървовидни модели и ансамблови техники. Лабораторните упражнения включват програмиране на NLP приложения с Python, използвайки NLTK, spaCy, Hugging Face, Scikit-learn и TensorFlow. Въвеждат са методи за дълбоко обучение, като невронни мрежи и трансформъри (BERT, GPT), които намират приложение в модерните NLP системи. Курсът завършва с практически проекти, в които студентите прилагат наученото за разработване на реални NLP решения.
Дисциплината се основава на предхождащите я дисциплини: „Теория на вероятностите за компютърни науки“, „Основи на изкуствения интелект“, „Въведение в машинното обучение“, „Избрани методи за машинно обучение“ и други. Дисциплината улеснява процеса на дипломното проектиране и по-нататъшната практическа работа на студенти по различни софтуерни проекти.
Съдържание
- • Основи на обработката на естествен език (NLP) – концепции и приложения
- • Предварителна обработка на текстови данни
- • Представяне и индексиране на текстови документи
- • Оптимизация на характеристичното пространство
- • Изчисляване на характеристични тегла в документи
- Основи на класификацията на текст чрез машинно обучение
- Оценка на качеството на класификационните алгоритми
- Метрики за оценка на текстова класификация
- Класификация на текст чрез Наивен Бейсов класификатор
- Класификация на текст с Метод на опорните вектори (SVM)
- Дървовидни модели за класификация на текст
- Класификация на текст с метод k най-близки съседи (k-NN)
- Ансамблови методи за класификация на текст
- Класификация на текст чрез невронни мрежи
- Практически проекти в текстовата класификация