Технологии

Для создания и масштабирования полноценного многофункционального комплекса Smart Big Data мирового уровня не было задействовано ни одного коммерческого software-решения – только in-house переработка open source. Данный подход был осмысленным и не определялся финансовыми ограничениями – к сожалению, «вчерашние» готовые или полуфабрикатные решения на рынке не соответствовали будущим задачам и вызовам.

Полноценный технологический комплекс Smart Big Data обязан содержать:

  • Систему сбора данных с миллионов источников, как через публичные API, так и прямого контакта;

  • Систему (со)хранения данных с обогащением мета-данными в реал-тайм режиме;

  • Систему лингвистического анализа высокоскоростных потоков как классического, так и «человеческого» языков;

  • Аналитическую систему обработки неструктурированных данных в режиме реального времени.

Отсутствие любого блока лишает возможности обеспечивать решение современных задач и новых вызовов, поэтому, например, ни Google, ни MicroSoft (Bing), ни Яндекс не являются значимыми игроками на новом быстрорастущем рынке мониторинга и аналитики соцмедиа.

Собственно развитие событий, появление новых вызовов и неготовность прежних подходов и нашли подтверждения в покупках компаний-блоков на мировом рынке:

  • HP покупает Autonomy, Salesforces – Radian6: компании по анализу неструктурированных Big Data;

  • Apple покупает компанию Topsy, а Twitter – компанию Gnip: обе компании занимаются сбором данных соцмедиа;

  • IBM покупает компанию AlchemyAPI, обладающей технологией высокоскоростной лингвистической обработки текстов и идет на альянс с Twitter.

Таким образом, полноценными комплексами Smart Big Data, способными собирать, обрабатывать и анализировать миллиарды публичных сообщений, в настоящий момент обладают всего несколько коммерческих компаний:

  • Apple: Topsy +Siri;

  • IBM+Twitter: Gnip, AlchemyAPI, Watson, Wolfram;

  • Facebook+DataSift: Facebook, Instagram, WhatsUp, DataSift;

  • PalitrumLab: PL Platform, Eureka Engine, Brand Analytics.

Технологические решения PalitrumLab обладают целым рядом уникальных решений:

  • Система сбора обеспечивает доступ не только к данным десятка соцмедиа через API (как у Topsy, Gnip и DataSift), но и к десяткам тысяч источникам, не имеющих такового – сайты онлайн-СМИ, форумы, блоги, сайты отзывов, рекомендательные и прочие сервисы;

  • Лингвистическая система Eureka Engine обеспечивает возможность обработки высокоскоростных потоков (более 100 кБ/сек на одном виртуальном сервере) свыше 40 языков. Качество автоматической объектной тональности для русского языка (одного из сложнейших с точки зрения лингвистики) – выше 85%, а уровень выявления новых сущностей (NER) – порядка 98%.

  • Система анализа данных Brand Analytics позволяет обеспечить оперативное реагирование порядка секунд, выявлять новые тренды в течение минут, а развитая система мета-данных позволяет достигать высокий уровень дополнительной расширенной информации по объектам мониторинга и окружению.

Над созданием и развитием технологий в компании работают молодые, увлеченные разработчики, создающие глобальные решения на базе новых перспективных промышленных стандартов: NoSQL, Map Reduce, CRF, n-граммы, GBP/TBP и др.