seo-блог

SEO-блог Остров МЫСЛЕЙ: сео (поисковая оптимизация), монетизация и раскрутка сайта, ресурсы сети.

В избранное :: В загрузку :: В печать
Bookmark and Share

AI: проблемы БД и корректировка




#161 AI (ИИ).  AI: проблемы БД и корректировка

Конечно, просто создать БД - это одна проблема, но ее нужно не просто создать, а создать правильно, т.е. откорректировать так, чтобы она отвечала действительности, чтоб предлоги "перед", "под", и т.д. робот с искусственным интеллектом мог различить, например, с существительным, написанным случайно (по ошибке) раздельными словами, например, "под земка" и не включал их в свою базу, или, обработав, удалил, оставив только конечный результат. Иначе получится два неправильных (не существующих слова), которые в дальнейшем будут только засорять БД и уменьшать вероятность "понимания" языка роботом, а также замедлять его роботу в связи с накопившемся мусором в БД.

Помимо корректировки на слова, описанные в разделе "Части речи", корректировку БД могут также выполнять люди, если им предложить такую возможность и открыть код. Звучит глупо и неправдопадобно? А как же, например, раздел каждого современного поисковика "вопросы и ответы", которые активно продвигаются самими поисковиками в серпе? Например, вы задаете вопрос, если он имеется в базе "вопросы и ответы" Гугл Яндекс или Меи.ру, то он выходит на первую строчку, если такового ответа в базе нет, то выводится каталог слов или статей Википедия, если нет там, то Академика и др. доверительные ресурсы, если и здесь нет, то выводится из сети, где наиболее часто встречается на сайте или странице - так работает поисковик Яндекс, или на который чаще всего ссылаются с соответствующем тематическим якорем - так работает поисковик Гугл.

Как правило, все статьи, слова и их значения уточняются людьми, корректируются администраторами и записываются уже навсегда в БД. А теперь представьте, что вопросы будут задавать пользователи роботу с искусственным интеллектом, он ответит? - конечно же нет, но он таким образом накопит колосальную базу данных, которую сам сможет в дальнейшем корректировать. А теперь представьте, что на специальных узкотематических форумах и блогах этот робот сам начнет спрашивать каждого пользователя (администратора) блога и получать ответ от него, если в своей базе такового не найдется - утопия? - нет. Ведь созданы же специальные программы для спама, которые автоматически за несколько минут могут оставить тысячи комментариев, но они только оставляют их, но ведь их также можно и считывать (парсить) и заносить в свою БД - обычный поисковый паук, только предназначен не для тупого собирания данных, а конкретных данных для свой Базы Знаний.

Такие комментарии добровольных блогеров можно было бы помечать специальным тегом, чтобы робот-паук мог понять, что он создал вопрос в тему блога и получил на него квалифицированный подробный ответ: вот вам и посещаемость бота, комментирование и обучение робота с искусственным интеллектом. Достаточно просто создать и запустить механизм, а дальше он сам сможет себя контролировать и обучать.

Как еще будет контролироваться правильность БД? - очень просто! Список всех слов, фраз, словоформ и т.д. могут контролироваться самими пользователями интернета - они даже не будут знать того, что обучают робота-паука искусственного интеллекта. Например, все в сети пишут про сайты. Маловероятно, что само слово "сайт" напишут все пользователи неверно, например, "сат" - явная ошибка. Робот с AI мог бы создать отдельно базу статистики и вести тупо подсчет, какие слова, как и кем пишутся, создать базу доверительных сайтов (как Гугл по Page Rank) и сверять колличество похожих слов. Например, слово "сайт" указано 10 млн. раз, а слово "сат" - 1 тыс. раз. Значит, слово "сайт" - правильное, а слово "сат" - нет.

Но встает новая проблема... Ведь, есть масса научных сайтов, где спец. слова могут определяться самими специалистами, т.е. вводиться искусственно и использоваться очень редко в определенной сфере деятельности. Таковые сферы могут быть малоизученные - космос, инопланетная жизнь, глубоководная жизнь океанских существ на глубине до 7 км и т.д. Но и в этом случае, есть вариант решения такой проблемы. Вернемся для примера опять к слову "сайт" и слову "сат". Во-первых, можно установить значимый порог допуска этого слова, ведь, вдруг изменение одной буквы дает совершенно новое слово с новым значением? Например, если такое слово встретилось в сети более 1000 раз, то оно добавляется, как единица БД в словарь искусственного интеллекта, иначе - пропускается.

Рассмотрим некоторые проблемы корректировки БД AI в автоматическом режиме.

Глагол и предлог не могут находиться в паре. Например, "у бежать воды", но "бежать у воды" (у лужи, реки, озера, моря). В этом случае будет две пары: "бежать" и "у воды", где "у воды" - место, направление, как, например, "идти в горы". Не может быть "по ходить горам", но может быть "ходить по горам" - две пары: "ходить" и "по горам"; но ни в коем случае не "ходить по" и "горам".

Глагол и направление или место. Правильно определенные склонения и спряжения помогут AI определить о чем идет речь и при необходимости подкорректировать синтаксис и грамматику. Например, - "у бежать воды", вместо "бежать у воды", но вполне может быть опечатка: "убежать воды" ("могут убежать воды в долины" - грубый пример, конечно, но суть, думаю, ясна). Проблемы взаиможействия слов между собой, а также слогов, букв и сочетание звуков вызывают массу сложных логических и лингвистических проблем.

Глагол и время - сочетания с другими словами. "Они будут хранится там" - все правильно с точки зрения компьютера, но не с точки зрения человека, ведь при проверке (что делать?) выясняется, что пропущен мягкий знак - "храниться", но что делает? - "хранится" тоже верно, но с точки зрения робота с AI, если такое слово есть в БД, то оно написано правильно, но не в правильной форме глагола по отношению к другим словам.

Также, помимо языковой корректировки БД, стоит также не мало проблем и по корректировке цифровой - это проблемы структуры БД, ее размера и постоянной оптимизации для хранения ее на сервере хостинга.

Нашли ошибки, знаете больше? - Пишите, исправим и дополним.


Другие статьи по теме seo (оптимизация), монетизации и раскрутке:

  • Похожих статей нет.
Теги (метки) Метки статьи:

Все метки (теги).
Просмотров: 58
Комментариев: Комментариев нет
Опубликованно: Вторник, Июнь 2nd, 2009 в 1:00
Обновлено: 2 Июнь 2009 в 3:46.
Директории: AI (ИИ)
Автор: admin, все авторы.


В статье: 866 слов. Ссылки на странице.
Bookmark and Share
УжасноПлохоНормальноХорошоОтлично
(Еще никто не оценил)
Источник: http://isle-blog.ru/ai/problem-db-and-update/


Понравилась статья? - Не пропустите следующую, подпишитесь на RSS-канал[?], e-mail или читайте блог Остров МЫСЛЕЙ через Яндекс.Ленту или Google.Reader.

Также Вы можете оставить комментарий, или trackback[?] на Вашем сайте.
На эту статью ссылаются:



Эту статью находят по поисковым запросам:
Оставьте свой комментарий на seo-блоге Остров МЫСЛЕЙ
Нам важно Ваше мнение. (Комментариев нет)

Еще никто не комментировал. Будьте первым.

Коммментарии разрешены, но пока их нет.



RSS-канал[?] комментариев данной статьи или всего блога Остров МЫСЛЕЙ.
Для установки аватара (фотография комментатора) используйте gravatar!
Оставляя комментарий, Вы соглашаетесь с правилами комментирования.

Прокомментировать

XHTML-теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

символов осталось из 2000.

Trackbacks

    Пример: SEO, PageRank, ТИЦ, Search.
    banner banner banner
    Рекламный блок РБ3 (360x60 или 125х125 пх). Здесь может быть Ваша реклама (текст, ссылки, баннеры) - сквозная прямая ссылка на всех страницах всего за 40 $/мес. Подробности по размещению рекламы в блоге Остров МЫСЛЕЙ: 463768885, zgr@bk.ru...
    Май 2012
    Пн Вт Ср Чт Пт Сб Вс
    « Июл    
     123456
    78910111213
    14151617181920
    21222324252627
    28293031  
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    advertising На этом месте могла
    быть Ваша реклама.
    Регистрация в блоге:

    Частые комментаторы:

    gravatar Марина
    Комментариев: 13
    Сайт: biznes-mesto.ru
    gravatar Олли
    Комментариев: 13
    Сайт: zhenskayalogika.ru
    gravatar Alex
    Комментариев: 8
    Сайт: blog.xx-web.ru
    gravatar Елена
    Комментариев: 8
    Сайт: Ru-party.ru/blogg
    gravatar Светлана Бобровская
    Комментариев: 6
    Сайт: vseuch.ru
    Пользователи:

    Администраторы: 1 (admin)
    Редакторы: 1 (admin)
    Авторы: 1 (admin)
    Публикаторы: 1 (admin)
    Зарегистрировано: 1
    Всего пользователей: 44

    Авторы:

  • admin 1 (78)

  • Статистика блога:

    Предложить работу:

    Обратная связь:

    gravatar Блогер-сеошник, веду сайты: Остров ПОЭЗЫ, Остров УСЛУГ, Остров ЛИТЕРАТУРЫ. Это техническая страница, более подробно обо мне смотрите здесь.Также приглашаю заглянуть в раздел О блоге и посетить личный блог.

    Autor: Зайва Игорь Леонидович

    E-mail: zgr@bk.ru

    ICQ: 463-768-885

    Reserve:

    Reserve:

    Рейтинг@Mail.ru Рейтинг блогов Rambler's Top100
    Также читайте раздел: Блогосфера.

    Если Вы ведете блог схожей тематики (раскрутка, оптимизация или монетизация сайта), давайте обмениваться ссылками.

    Блогролл:

    Пока пусто, но Вы можете предложить свой тематический ресурс.
    topics
    RT @RusBase: Всероссийская база данных населения http://t.co/JT9Bs9Eu 2012-02-13

    Posting tweet...

    Последние комментарии:
  • Трекбеки и пингбеки:
  • Умные деньги: Законы блогосферы | Честный бизнес
  • Эстафета продолжается в статьях и комментариях.: Это уже позже я прочитала на блоге Игоря статью “Акции,...
  • Блог Береза Владимира: Алгоритм Google или определяем PR
  • Анонс лучших статей блогосферы: КАРТА САЙТА И БРЕДОСАЙТЫ: ХИТРОСТИ И ЭФФЕКТИВНОСТЬ.


  • Бэклинки (внешние ссылки):


    Статистика ссылок
    Яндекс: 0, Гугл: 0, Яху: 0.
    Самые любимые статьи:

    Использование материалов разрешено только при указании источника.
    Подписаться на рассылку RSS всего блога или только комментариев.
    Блог рожден: 1. 10. 2008, живет: 3 года, 7 мес. и 17 дней.
    SEO-блог Остров МЫСЛЕЙ работает на WordPress
    Copyright © 2008-2012 isle-blog.ru PageRank
    Республика Казахстан, Алматы
    Widgetize!

    seo