Частотний словник сучасної української публіцистики є першою в українській лексикографічній практиці роботою, яка відтворює лексичний склад мови періодичних видань з повними статистичними характеристиками вживаності кожного слова реєстру. На підставі одержаних статистичних даних можна визначити шар лексики, характерний для публіцистичного стилю, виявити неологізми і шляхи їх утворення, а також не властиві українській мові слова, небажані для широкого вжитку. Це сприятиме формуванню необхідних навичок користування лексичним багатством рідної мови і, як наслідок, розвиткові і вдосконаленню мови суспільно-політичного спілкування.
Словник репрезентує лексику публіцистичного стилю, одержану на вибірці текстів з центральних періодичних видань обсягом 300тис. слововживань.
Текстові масиви: “Урядовий кур’єр”, “Голос України”, “Сільські вісті”, “Культура і життя”, “Україна молода”, “Літературна Україна”, “Молодь України”, “Вісті з України”, “Республіка”, “Золоті ворота” за 1995 рік.
Будовою словника передбачено наведення статистичних даних як для парадигматичних форм, які зустрілися в текстах, так і для узагальнення словникових одиниць, що забезпечує можливість здійснення великого спектру граматичних досліджень.
У першому стовпчику – слова з граматичними характеристиками і словоформи. Наступні чотири стовпчики – статистичні характеристики. Кожна з цих характеристик дає певну інформацію про функціонування слова (словоформи) і може бути використана для подальших досліджень. Першою, вихідною інформацією, на якій базуються всі інші характеристики, є абсолютна частота (f). Середня частота (х) - це інформація для статистичних зіставлень слів і словоформ між собою в одній чи кількох вибірках. Загальна частотність вживання тієї чи іншої лексеми, навіть обрахована на великій вибірці, не є показником “ядерності” позиції, яку займає лексема в мові, оскільки лексема може мати високу частоту, але в межах одного тексту. Точнішим є значення, яке враховує розподіл лексеми за текстами.
Міра коливання середньої частоти (сігма середньої частоти) дає уявлення про рівномірність розподілу в обстеженому корпусі текстів (для слів і словоформ з частотою 1 ця характеристика не подається).
Стабільність вживання слова (або словоформи) у корпусі текстів або сталість її статистичної поведінки відображена в коефіцієнті стабільності абсолютної частоти (D), для зручності округленому і представленому у вигляді цілого числа. Найвище значення – 10, означає гранично рівномірний розподіл.
У масиві публіцистичних текстів довжиною 300 000 слововживань зафіксовано 20824 різних слова або 42748 різних словоформи