Гарант-Парк-Интернет выпустила программу для поиска фактов в тексте RCO Fact Extractor 1.0

октября 31, 2003

Гарант-Парк-Интернет выпустила программу для поиска фактов в тексте RCO Fact Extractor 1.0
10.12.2004
Компания Гарант-Парк-Интернет объявляет о выходе первой версии программы RCO Fact Extractor — персонального приложения для Windows, которое предназначено для аналитической обработки текста на русском языке. Основная сфера применения программы #8211; это задачи из области компьютерной разведки, требующие высокоточного поиска информации, например, автоматический подбор материала к досье на целевой объект или же мониторинг определенных сторон его активности, освещаемых в СМИ. Fact Extractor способен отыскать в тексте описания фактов различного типа, связанных с интересующими объектами — персонами и организациями, и классифицировать их. Программа позволяет не только найти фрагменты текста, в которых говорилось, например, о поездках персоны, ее встречах, заключении договоров, сделках купли-продажи, но и точно определить все места поездок, визави и контрагентов, наименования товаров и прочее. Fact Extractor воплотил в себе наиболее продвинутые решения из области компьютерной лингвистики и искусственного интеллекта, разработанные в компании Гарант-Парк-Интернет.
Программа работает в среде Windows 2000 и выше и позволяет обрабатывать документы в популярных текстовых форматах из различных источников — файловой системы, заданных web-сайтов, базы данных.
Результат работы программы #8211; таблица, которая содержит информацию о найденных фактах, связанных с объектами мониторинга, и может экспортироваться в html-формат для формирования отчета или для загрузки в стороннее приложение, работающее с уже структурированными данными.
Fact Extractor #8211; это интеллектуальная программа для высокоточного избирательного анализа информации, поэтому она предполагает настройку шаблонов для поиска и классификации фактов самых различных типов. Такие специализированные шаблоны либо приобретаются отдельно, либо создаются пользователем самостоятельно при помощи дополнительной программы Fact Tuner. Тем не менее, даже стандартные шаблоны, включенные в комплект поставки Fact Extractor, позволяют распознавать огромное количество самых разнообразных фактов, но без детальной классификации, т.е., попросту находить события, в которых участвует целевой объект, и извлекать из текста всех прочих фигурантов этих событий, без детализации их ролей. С учетом уникальных механизмов выделения и отождествления различных обозначений объектов в тексте, даже эти стандартные возможности делают Fact Extractor незаменимым поисковым инструментом в тех случаях, когда поиск ведется по персонам и организациям.
Помимо собственно программы с графическим интерфейсом для Windows, компания Гарант-Парк-Интернет выпускает пакет для разработки программного обеспечения (SDK), на базе которого построен Fact Extractor и который позволяет включать возможности анализа текста в собственные приложения.
Наша компания уже около четырех лет занимается разработкой специализированного программного обеспечения в области компьютерной лингвистики. За это время лингво-аналитические компоненты были успешно введены в эксплуатацию в корпоративных системах ряда силовых ведомств и коммерческих структур. Почему мы решили создать персональную систему? Дело в том, что несмотря на интенсивное развитие ИТ-индустрии в России, подавляющее большинство аналитических, маркетинговых отделов и служб безопасности компаний осуществляют обработку текстовой информации, связанной с интересующими объектами, практически вручную. Они вводят запрос с элементами ФИО персоны или наименованием организации в поисковую машину, а затем разгребают вываленную кучу мусора, поскольку поисковик не способен точно распознать большинство фамилий и наименований, не говоря уже об отборе и структурировании связанной с ними информации. Нам бы хотелось заполнить такую брешь в сфере поисковых систем, для чего мы выводим на рынок принципиально новую систему, основанную не на документальном, а на фактографическом поиске.
Очень много реализовано нами в ядре программы, начиная от алгоритмов выделения наименований организаций и персон, отождествления их полных, кратких и косвенных наименований, местоимений, до механизмов синтаксического разбора и поиска изоморфизмов в семантических сетях. Тем не менее, пользовательский интерфейс программы выглядит достаточно просто #8211; отчет в виде таблицы найденных фактов. Экспорт результатов также весьма примитивен. Но удобство, как говорится, дело наживное. Программа же выполняет главное #8211; превращает сырой текст в структурированные и типизированные данные #8211; разложенные по полочкам факты для таблиц БД. И на сегодняшний день сделать этого не способна ни одна другая программа!
Конечно же, мы планируем развивать функционал по просмотру, фильтрации и экспорту полученных фактов. Мы, безусловно, планируем интеграцию нашего продукта с системами обработки знаний других производителей, что позволило бы полноценно использовать математические методы для анализа найденных нами фактов в совокупности. Но, в первую очередь, при развитии продукта мы будем опираться на отзывы, пожелания и нарекания со стороны наших новых пользователей, появления которых мы ожидаем в ближайшее время.
Эмоции со стороны коллектива разработчиков выразил руководитель отдела компьютерной лингвистики Гарант-Парк-Интернет, канд. техн. наук Александр Ермаков:
RCO Fact Extractor #8211; это первая коммерческая программа, основанная на чрезвычайно сложных лингвистических алгоритмах, которая производит полный синтактико-семантический анализ русского текста на естественном языке, в том числе на языке СМИ. Я абсолютно уверен, что сколько-нибудь близкие программы такого класса не появятся на рынке еще как минимум несколько лет. И хотя мы прекрасно осознаем, сколь многое предстоит еще сделать в научении компьютера русскому языку, результаты испытаний программы позволяют утверждать, что качественный рубеж преодолен и сегодня машина уже в состоянии понимать обычный газетный текст, во всяком случае, шестьдесят процентов этого текста всего лишь с несколькими процентами ошибок! Теперь именно лингвистические подходы к анализу текста, построенные на знании законов языка и речи, будут работать в коммерческих приложениях класса data и text mining, обеспечивая качественные показатели, не достижимые при других шаманских подходах, используемых до настоящего времени. Вот потому сегодня мы празднуем триумф компьютерной лингвистики! Зная изнутри все особенности интеллектуального ядра программы, все достоинства и недостатки включенных в него алгоритмов и словарей, я в который раз представляю себе, как вертятся эти колесики вместе, и опять говорю #8211; фантастика! Если бы несколько лет назад, начиная эти работы, я представлял себе всю сегодняшнюю систему, то я бы сказал #8211; невозможно, этого сделать нельзя! К нашему счастью, система наращивалась поэтапно, постоянно стимулируясь извне. Вот почему мы видим в сегодняшних достижениях большую заслугу и наших клиентов из силовых ведомств, которые зачастую вынуждали нас брать нерешаемые задачи, веря в компьютерную лингвистику даже там, где мы сами в нее не верили.
Подробную информацию о продукте, включая демонстрационную версию, можно получить на сайте
.

searchengines.ru

Yahoo Site Explorer снова работает корректно

октября 31, 2003

29.10.2007
Несколько недель назад многие пользователи сообщали о странном поведении аналитической службы Yahoo Site Explorer: пользователи, которые входили в систему, получали результаты, кардинально отличавшиеся от результатов, которые были доступны не залогиненным пользователям.
Разница в данных была некорректной и показывалась у пользователей по всему миру. На днях администрация сервиса сообщила о том, что устранила неполадку и, хотя, сбой еще может показываться у некоторых пользователей, через несколько дней он будет устранен полностью.

searchengines.ru

Goоgle закрывает Lively

октября 31, 2003

20.11.2008
Этим летом компания Google открыла проект собственного виртуального мира Lively. Проект должен был составить конкуренцию популярной игре-симулятору Second Life. В ходе игры все пользователи Lively могли создавать собственные миры, персонажей и даже вставлять их на собственную страницу социальных сетей. Теперь Google
о полном закрытии Lively.
Проект будет существовать до конца этого года. Официальной причиной закрытия стало решение «сфокусироваться на основных задачах — поиске, рекламе и развитии бизнес-приложений.»
Все разработчики Lively получат новые задачи, что означает, что Google не сократит команду за ненадобностью. Всем пользователям, которые активно использовали Lively, Google советует успеть снять скриншоты собственных виртуальных комнат, так как проект будет закрыт полностью и вся информация не подлежит восстановлению.

searchengines.ru

Пользователи Google и Yahoo предпочитают естественные результаты поиска

октября 31, 2003

06.05.2004
Компания iProspect, занимающаяся изучением рынка поисковых систем, провела недавно исследование, касающееся поведения пользователей Google, Yahoo, MSN, и AOL.
60,5% пользователей Google, Yahoo!, MSN и AOL уверены, что обычные результаты поиска больше соответствуют введённому ими запросу, чем оплаченные (т.е. рекламные)
60,8 и 72,3% процента посетителей Yahoo! и Google соответственно кликали по ссылкам в обычных результатах, как по наиболее соответствующим запросу
71,2% пользователей MSN кликали по рекламным ссылкам, как по наиболее соответствующим их запросу.
Здесь следует заметить, что MSN явным образом не различает рекламные ссылки и обычные при выводе результатов поиска, в то время как AdWords (технология Google) и Overture (от Yahoo) легко позволяют пользователю различить рекламный и ествественный результат.
Наконец, пользователи AOL в равной степени воспринимают и обычные, и рекламные объявления, как соответствующие их поисковому запросу.
По мнению главы iProspect Фредерика Маркини (Fredrick Marckini), проведённое исследование показывает, что среди пользователей обоих поисковых гигантов есть огромный разрыв в поисковых предпочтениях платных и рекламных результатов, что следует учитывать, поскольку игнорирование оптимизации естественного поиска может обернуться потерей большого числа кликов пользователей и соответствующего трафика.
Президент iProspect Роберт Мюррэй (Robert Murray) отмечает, что в общественном предложении (IPO) Google заявил, что получает 95% доходов от рекламных объявлений. Представьте, что будет с их доходами, если они найдут способ увеличить цифру в 30% посетителей, которые на момент проведения исследования кликали по рекламным ссылкам, отмечает
.

searchengines.ru

Yahoo реорганизовал структуру сайта

октября 30, 2003

05.10.2007
После обновления своего движка, Yahoo взялся за увеличение поискового трафика, проходящего через главную страницу сайта. С этой целью многие ссылки, которые раньше вели посетителя на специализированные сайты Yahoo, богатые тематическим контентом, теперь служат для генерирования запроса по данной теме и ведут на страницу результатов поиска.
Такая постановка вопроса вызывает у пользователей, которые годами переходили по данным ссылкам на специализированные сайты, некоторое неприятие, так как не соответствует привычной схеме сайта и затягивает поиск интересующей информации.
Кроме того, данная стратегия не может быть успешна в маркетинговом плане: ключевые слова, по которым происходит запрос, не имеют достаточной популярности, чтобы принести рекламную прибыль сайту.

searchengines.ru

Следующая страница »