Дисциплини

44 а Извличане на информация в Интернет - СИТ

Седмичен хорариум 2+0+2
Форма на контрол Изпит

Анотация


Дисциплината има за цел да запознае студентите с принципите на извличане на информация в Интернет. Разглеждат се базовите понятия и методи на извличането на данни от документи, като се акцентира върху съвременните подходи и алгоритми на търсене на информация във Web пространството. Обърнато е внимание на въпросите, свързани с индексирането на информацията, модели за извличане на информация, рейтинговането и запитванията. Разглеждат се принципите на изграждане на търсещите машини във Web, както и на особеностите на съвременните системи за извличане на информация в Интернет.

Съдържание


 • Базови принципи на извличане на информацията (ИИ).
 • Архитектура на търсеща машина. Основни компоненти. Функциониране.
 • Извличане на web страници. Web Crawling. RSS feeds. Съхраняване на извлечените документи.
 • Обработване на текст. Оценка на резултантното множество.
 • Парсване на документ. Анализ на връзки.
 • Рейтингове и индексиране. Изграждане на индекси. Инвертни индекси. Компресиране.
 • Запитвания (queries). Трансфомации и прецизиране на запитванията. Извеждане на резултати.
 • Модели на извличане на информация.
 • Оценка на търсещите машини.
 • Класификация и клъстеринг. Разпознаване на спам.
 • Социално търсене. Тагове. Филтриране на документи.
 • Извличане на XML документи. Особености.
 • Системи за извличане на информация. LEXIS/NEXIS, SMART, Dialog, Dow Jones News/Retrieval, INQUERY.
 • Архитектура на търсещата машина на Google.
 • Извличане на мултимедийна информация.