Дисциплини

44 а Извличане на информация в Интернет - СИТ

Седмичен хорариум 2+0+2
Форма на контрол Изпит

Анотация


Дисциплината има за цел да запознае студентите с принципите на извличане на информация в Интернет. Разглеждат се базовите понятия и методи на извличането на данни от документи, като се акцентира върху съвременните подходи и алгоритми на търсене на информация във Web пространството. Обърнато е внимание на въпросите, свързани с индексирането на информацията, модели за извличане на информация, рейтинговането и запитванията. Разглеждат се принципите на изграждане на търсещите машини във Web, както и на особеностите на съвременните системи за извличане на информация в Интернет.

Съдържание


  • Базови принципи на извличане на информацията (ИИ).
  • Архитектура на търсеща машина. Основни компоненти. Функциониране.
  • Извличане на web страници. Web Crawling. RSS feeds. Съхраняване на извлечените документи.
  • Обработване на текст. Оценка на резултантното множество.
  • Парсване на документ. Анализ на връзки.
  • Рейтингове и индексиране. Изграждане на индекси. Инвертни индекси. Компресиране.
  • Запитвания (queries). Трансфомации и прецизиране на запитванията. Извеждане на резултати.
  • Модели на извличане на информация.
  • Оценка на търсещите машини.
  • Класификация и клъстеринг. Разпознаване на спам.
  • Социално търсене. Тагове. Филтриране на документи.
  • Извличане на XML документи. Особености.
  • Системи за извличане на информация. LEXIS/NEXIS, SMART, Dialog, Dow Jones News/Retrieval, INQUERY.
  • Архитектура на търсещата машина на Google.
  • Извличане на мултимедийна информация.