Анотация
Дисциплината има за цел да запознае студентите с принципите на извличане на информация в Интернет. Разглеждат се базовите понятия и методи на извличането на данни от документи, като се акцентира върху съвременните подходи и алгоритми на търсене на информация във Web пространството. Обърнато е внимание на въпросите, свързани с индексирането на информацията, модели за извличане на информация, рейтинговането и запитванията. Разглеждат се принципите на изграждане на търсещите машини във Web, както и на особеностите на съвременните системи за извличане на информация в Интернет.
Съдържание
- Базови принципи на извличане на информацията (ИИ).
- Архитектура на търсеща машина. Основни компоненти. Функциониране.
- Извличане на web страници. Web Crawling. RSS feeds. Съхраняване на извлечените документи.
- Обработване на текст. Оценка на резултантното множество.
- Парсване на документ. Анализ на връзки.
- Рейтингове и индексиране. Изграждане на индекси. Инвертни индекси. Компресиране.
- Запитвания (queries). Трансфомации и прецизиране на запитванията. Извеждане на резултати.
- Модели на извличане на информация.
- Оценка на търсещите машини.
- Класификация и клъстеринг. Разпознаване на спам.
- Социално търсене. Тагове. Филтриране на документи.
- Извличане на XML документи. Особености.
- Системи за извличане на информация. LEXIS/NEXIS, SMART, Dialog, Dow Jones News/Retrieval, INQUERY.
- Архитектура на търсещата машина на Google.
- Извличане на мултимедийна информация.