ПИСАН — Платформа за истраживање дигитализованог садржаја новинских колекција
ПИСАН (Платформа за истраживање дигитализованог садржаја новинских колекција потпомогнута језичким технологијама за српски језик) је систем развијен за претрагу, анализу и визуелизацију великих корпуса историјских новина на српском језику, са фокусом на ћирилички корпус и принципе дигиталне хуманистике.
Шта платформа омогућава
- Претрага пуног текста и претрага по структури (секције, пасуси, реченице) и метаподацима
- Фасетна претрага (drill-down) по колекцији, години, теми и другим својствима
- Анотације у TEI XML (структура, странице, сегменти) и веб-визуелизација преко TEI Publisher-а
- Обележавање именованих ентитета и повезивање са Википодатцима (Wikidata)
- Моделирање тема (embedding-based) и праћење тема кроз време
- Визуелизације: мреже, карте (геолокација преко координата из Wikidata), временски дијаграми, графови знања
Обрађене колекције (демонстрација потенцијала)
- Отаџбина, Зора, Жена, Дело (пројекат ПИСАН)
- Нова искра (прошлогодишњи материјал, тестирано у систему)
Брзи линкови
- Платформа: https://tei.jerteh.rs/exist/apps/PISAN
- Репозиторијум: https://github.com/jerteh/PISAN
- NER/NEL API: https://ners.jerteh.rs/4api
- TESLA: https://tesla.rgf.bg.ac.rs/