суббота, 21 сентября 2013 г.

Лингвистика

Не верти лингвистам. У них много воды и мути.

Первый этап выбор языков для изучения. Разные оценки дают разные показатели.
По численности населения. По численности пользователей интернета. По числу сайтов. 

Число языков привышает 7 000 штук.  Но при этом основными является порядка 40 штук..

Так как выбрать те что стоит изучать? С практической точки зрения интересует наиболее распространённые языки. 
Но даже так трудно сказать кто распространённие. Одно время вся Европа говорила на Латинском языке, а после на Германском. А сейчас на Американском. Воны меняют процентное содержание языка. 

Поэтому выбор группы языков будем делать по текущему моменту. Наиболее интересная оценка популярности языков через число сайтов и численности населения.

http://ru.wikipedia.org/wiki/Языки_в_Интернете
http://ru.wikipedia.org/wiki/Список_наиболее_распространённых_языков

Изучения 7 000 языков затруднительно, так что надо определиться с количеством языков можно выделить 3 основных множества.

10 шт
36 шт
102 шт

Для изучения 102 нужно много времени и не представляется возможным проделать это в одиночку.  Полиглоты обычно говорят на 5-6  языках. 

Поэтому в качестве основного  списка выбираем следующий 11 языков.
1 английский
2 китайский
3 испанский
4 японский
5 португальский
6 немецкий
7 арабский  
8 французский
9 русский
10 корейский
11    Хинди

Хинди слабо представлен в интернете поэтому он включён в список опционально.

Следующие 38 языков можно использовать для отработки обще языковых методов  
 1. английский
 2. русский
 3. немецкий
 4. японский
 5. испанский
 6. китайский
 7. французский
 8. португальский
 9. польский
10. итальянский
11. турецкий
12. нидерландский
13. арабский
14. персидский
15. чешский
16. шведский
17. индонезийский
18. вьетнамский
19. румынский
20. корейский
21. греческий
22. венгерский
23. датский
24. тайский
25. финский
26. словацкий
27. болгарский
28. норвежский (нюнорск)
29. иврит
30. литовский
31. хорватский
32. сербский
33. украинский
34. словенский
35. норвежский (букмол)
36. каталонский
37. хинди
38. латинский

Остальные языки составляют малую толику и их рассмотрение не интересно.

В качестве открытых инструментов можно выделить 
Которая разрабатывается при финансировании со стороны правительств Испании и Каталонии в Университете Аликанте (Universitat d’Alacant). 

http://en.wikipedia.org/wiki/Apertium
http://devel.cpl.upc.edu/freeling/browser/trunk

Это наиболее успешные проекты в машинной лингвистике. Как можно заметить они существуют всего недавно менее 10 лет и были возможны только при финансирование со стороны государства. Но даже они рассматривают только Европейские языки которые произошли от одного общего предка.


http://nlp.lsi.upc.edu/freeling/
Библиотека для анализа предложений по морфологии и грамматике.

http://www.aot.ru/download.php
Отечественная разработка.

Комментариев нет:

Отправить комментарий