Форум Рідного Міста

Алгоритм пошуку "гарячих" тем в інтернеті

Agent86 - 8-3-2003 у 23:53

Опублiковано 4 березня 2003 року

Американський учений Джон Клайнберг із Корнельського університету запропонував новий спосіб фільтрації інформації, що дозволяє виявляти найбільш актуальні для кожного конкретного моменту часу проблеми і теми для обговорень. Спосіб, запропонований Клайнбергом, ґрунтується на аналізі великих обсягів текстової інформації з метою виявлення найбільш часто вживаних слів. Коли відбувається яка-небудь важлива подія, про нього починають говорити і писати дуже багато. Це приводить до своєрідного "скачка" у частоті вживанні тих або інших слів.

Узявши за основу цю ідею, Клайнберг розробив алгоритм, що дозволяє аналізувати частоту використання того або іншого слова. На виході алгоритм являє собою рейтинг слів, на підставі якого можна робити висновки про популярність тієї або іншої теми і робити сортування інформації.

Само собою, що з рейтингу повинні виключатися службові частини мови: артиклі, найбільш розповсюджені займенники, числівники і слова загальновживаної базової лексики, наприклад, "час", "більше", "менше" і т.д. Адже саме ці слова зустрічаються найчастіше, однак установити по частоті їхнього згадування які-небудь тенденції навряд чи можливо. Наприклад, у рейтингу слів Usenet перше місце займає визначений артикль "the", друге - "to", а третє - "of". У першій десятці також знаходяться невизначений артикль "a", "and", дієслово "is" і займенник "і". Зробити на підставі цього рейтингу який-небудь аналіз навряд чи вийде.

Система Клайнберга, однак, працює набагато ефективніше. Щоб випробувати свою розробку, він змусив її проаналізувати тексти всіх президентських доповідей про положення в США (State of the Union addresses), починаючи з 1790 р. У підсумку вийшло, що в період Війни за незалежність американських колоній часто вживалися слова militia ("ополчення";) і British ("британський";). А в період з 1947 по 1959 роки спостерігався "стрибок" у використанні слова atomic ("атомний";). Таким чином, удалося довести працездатність системи.

Використовувати розробку Клайнберга можна в самих різних областях. Сам учений збирався створити на її основі утиліту для фільтрації електронної пошти, що на основі частоти згадування слів визначала би важливість листів. Важливим проблемам можуть бути присвячені листи багатьох людей, що будуть використовувати ті самі слова. Це дозволить відокремити "зерна від полови". Крім цього, технологію можна буде використовувати для підвищення релевантності пошуку в інтернеті, а також для виявлення найбільш "гарячих" новин і дискусійних тим.

Наприклад, створивши рейтинг слів, вживаних у блогах - онлайнових щоденниках, що одержали за останній рік скажену популярність, можна визначити, про що воліють говорити користувачі інтернету. Така інформація може становити інтерес для журналістів, що шукають теми для своїх репортажів, маркетологів, що зможуть ефективніше виявляти переваги користувачів і коректувати відповідним чином рекламні кампанії. Нарешті, рейтинги слів у блогах допоможуть і державі, що зможе стежити за настроями громадян. Останнє, втім, відноситься лише до країн, де інтернетом користується більш половини населення, у противному випадку, вибірка для аналізу вийде непредставницька. Рейтинг згадування слів у блогах вже існує і розташований на сайті Daypop. http://www.daypop.com/


джерела : www.compulenta.ru, Scientific American