AI: проблемы БД и корректировка
Конечно, просто создать БД - это одна проблема, но ее нужно не просто создать, а создать правильно, т.е. откорректировать так, чтобы она отвечала действительности, чтоб предлоги "перед", "под", и т.д. робот с искусственным интеллектом мог различить, например, с существительным, написанным случайно (по ошибке) раздельными словами, например, "под земка" и не включал их в свою базу, или, обработав, удалил, оставив только конечный результат. Иначе получится два неправильных (не существующих слова), которые в дальнейшем будут только засорять БД и уменьшать вероятность "понимания" языка роботом, а также замедлять его роботу в связи с накопившемся мусором в БД.
Помимо корректировки на слова, описанные в разделе "Части речи", корректировку БД могут также выполнять люди, если им предложить такую возможность и открыть код. Звучит глупо и неправдопадобно? А как же, например, раздел каждого современного поисковика "вопросы и ответы", которые активно продвигаются самими поисковиками в серпе? Например, вы задаете вопрос, если он имеется в базе "вопросы и ответы" Гугл Яндекс или Меи.ру, то он выходит на первую строчку, если такового ответа в базе нет, то выводится каталог слов или статей Википедия, если нет там, то Академика и др. доверительные ресурсы, если и здесь нет, то выводится из сети, где наиболее часто встречается на сайте или странице - так работает поисковик Яндекс, или на который чаще всего ссылаются с соответствующем тематическим якорем - так работает поисковик Гугл.
Как правило, все статьи, слова и их значения уточняются людьми, корректируются администраторами и записываются уже навсегда в БД. А теперь представьте, что вопросы будут задавать пользователи роботу с искусственным интеллектом, он ответит? - конечно же нет, но он таким образом накопит колосальную базу данных, которую сам сможет в дальнейшем корректировать. А теперь представьте, что на специальных узкотематических форумах и блогах этот робот сам начнет спрашивать каждого пользователя (администратора) блога и получать ответ от него, если в своей базе такового не найдется - утопия? - нет. Ведь созданы же специальные программы для спама, которые автоматически за несколько минут могут оставить тысячи комментариев, но они только оставляют их, но ведь их также можно и считывать (парсить) и заносить в свою БД - обычный поисковый паук, только предназначен не для тупого собирания данных, а конкретных данных для свой Базы Знаний.
Такие комментарии добровольных блогеров можно было бы помечать специальным тегом, чтобы робот-паук мог понять, что он создал вопрос в тему блога и получил на него квалифицированный подробный ответ: вот вам и посещаемость бота, комментирование и обучение робота с искусственным интеллектом. Достаточно просто создать и запустить механизм, а дальше он сам сможет себя контролировать и обучать.
Как еще будет контролироваться правильность БД? - очень просто! Список всех слов, фраз, словоформ и т.д. могут контролироваться самими пользователями интернета - они даже не будут знать того, что обучают робота-паука искусственного интеллекта. Например, все в сети пишут про сайты. Маловероятно, что само слово "сайт" напишут все пользователи неверно, например, "сат" - явная ошибка. Робот с AI мог бы создать отдельно базу статистики и вести тупо подсчет, какие слова, как и кем пишутся, создать базу доверительных сайтов (как Гугл по Page Rank) и сверять колличество похожих слов. Например, слово "сайт" указано 10 млн. раз, а слово "сат" - 1 тыс. раз. Значит, слово "сайт" - правильное, а слово "сат" - нет.
Но встает новая проблема... Ведь, есть масса научных сайтов, где спец. слова могут определяться самими специалистами, т.е. вводиться искусственно и использоваться очень редко в определенной сфере деятельности. Таковые сферы могут быть малоизученные - космос, инопланетная жизнь, глубоководная жизнь океанских существ на глубине до 7 км и т.д. Но и в этом случае, есть вариант решения такой проблемы. Вернемся для примера опять к слову "сайт" и слову "сат". Во-первых, можно установить значимый порог допуска этого слова, ведь, вдруг изменение одной буквы дает совершенно новое слово с новым значением? Например, если такое слово встретилось в сети более 1000 раз, то оно добавляется, как единица БД в словарь искусственного интеллекта, иначе - пропускается.
Рассмотрим некоторые проблемы корректировки БД AI в автоматическом режиме.
Глагол и предлог не могут находиться в паре. Например, "у бежать воды", но "бежать у воды" (у лужи, реки, озера, моря). В этом случае будет две пары: "бежать" и "у воды", где "у воды" - место, направление, как, например, "идти в горы". Не может быть "по ходить горам", но может быть "ходить по горам" - две пары: "ходить" и "по горам"; но ни в коем случае не "ходить по" и "горам".
Глагол и направление или место. Правильно определенные склонения и спряжения помогут AI определить о чем идет речь и при необходимости подкорректировать синтаксис и грамматику. Например, - "у бежать воды", вместо "бежать у воды", но вполне может быть опечатка: "убежать воды" ("могут убежать воды в долины" - грубый пример, конечно, но суть, думаю, ясна). Проблемы взаиможействия слов между собой, а также слогов, букв и сочетание звуков вызывают массу сложных логических и лингвистических проблем.
Глагол и время - сочетания с другими словами. "Они будут хранится там" - все правильно с точки зрения компьютера, но не с точки зрения человека, ведь при проверке (что делать?) выясняется, что пропущен мягкий знак - "храниться", но что делает? - "хранится" тоже верно, но с точки зрения робота с AI, если такое слово есть в БД, то оно написано правильно, но не в правильной форме глагола по отношению к другим словам.
Также, помимо языковой корректировки БД, стоит также не мало проблем и по корректировке цифровой - это проблемы структуры БД, ее размера и постоянной оптимизации для хранения ее на сервере хостинга.
Другие статьи по теме seo (оптимизация), монетизации и раскрутке:
Комментариев: Комментариев нет
Опубликованно: Вторник, Июнь 2nd, 2009 в 1:00
Обновлено: 2 Июнь 2009 в 3:46.
Директории: AI (ИИ)
Автор: admin, все авторы.
В статье: 866 слов. Ссылки на странице.
Понравилась статья? - Не пропустите следующую, подпишитесь на RSS-канал[],
Также Вы можете оставить комментарий, или на Вашем сайте.
Эту статью находят по поисковым запросам:





Метки статьи:



463768885,
zgr@bk.ru...























