
- выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты;
- отделение новостей от других материалов — справочных, энциклопедических и других текстов;
- группировка новостей по тематикам — Society, Economy, Technology, Sports, Entertainment, Science, Other;
- группировка новостей об одном событии/инфоповоде в сюжеты;
- ранжирование сюжетов по тематикам и важности.