You can read this blog in any language using google translate as follows:

Goto http://translate.google.com/
Paste URL in the box and select "Japanese for From Language" and "To Language". Then click "Translate".

English translated pages are here:
http://bit.ly/xPuXoy

你可以閱讀這個博客,在任何使用“Google”的語言翻譯

本ブログのアクセス統計: 60万アクセスを達成しました。ご訪問ありがとうございました。

60万アクセスまでの経過

2009年12月に始めた本blog。2011年7月ごろに10万アクセスを達成し、2011年12月13日には15万アクセスを達成。
その後、私も更新しておらず、アクセスは少し減りましたが、3月1日には18万アクセス。2012/4/18に20万アクセス、2012/8/21に25万アクセス、2013/1/18に30万アクセス、2013/12/17に40万アクセスを達成しました。しばらく見ていなかったら、2015/5/1に50万2584アクセスになっていました。またまた、しばらく更新しないうちに、2017/6/11に60万7197アクセスになっていました。2018/7/7 .. おお七夕 .. には63万0656アクセスになっていました。久しぶりに更新しました。

2012年1月18日水曜日

言語認識は不思議である - 英語のミスとの関係, 科学技術の衰え

少し昔から言われていたようであるが、昨今、Facebookでまた話題になっているものがある。ケンブリッジ大学の研究成果であるらしいが、まずは下の文を読んでいただきたい。

別に気にせず読めた方が多いと思う。がよく見ると、単語の最初と最後は合っているが、間の文字の順番がめちゃめちゃである。
めざとい人は、「にんんげは」が読みにくいという。これはすぐに解説する。

誤読や凡ミスの例だという人など、いろいろなコメントがあったが、ある意味、人間の認知システムの解析例として、面白い知見を提示している。
ただ、掘り下げない発言も多いし、簡単に実験できるのに、推測だけして実験すらしない人が多い。こういうところにも日本の科学技術の底力の低下を感じる。

http://bit.ly/vtWiCS に書いたが、黒部ダムを作ったころの日本の科学する力は、その後の有明干拓等で、衰えてしまったように思う。米国のNASAもアポロ13を安全帰還させたようなすごさはもうないので、Space shuttleで2度も大事故を起こしているのだろう。もっとも、たかだか10回程度しか有人飛行していないアポロ計画と、135回も有人飛行をしているSpace shuttleを比較するのは無茶だが、1960年台に月にいったアポロの知見は生かせていないと思うところが結構ある。-- これについては別途考察したい。
豊かになると、人間堕落するのだろう。心を引き締めないと、後発国に出し抜かれる。

さて話を戻すと。。
a. 「みなさん」を「みさなん」なら同じにみえるけれど、最初と最後の文字かえてしまう、たとえば、「みさんな」とかにすると読めなくなる。

「にんんげは」が読めないのも、「にげんん は」にすれば読めるのでは。単語の区切りがおかしいので、ここでは単語の最初と最後の文字を同じに出来ていないのであろう。

   thinkをtinhk でもいいが、tnhkiだとわからなくなる。英語でも同じらしい。

b. 「みなさん」を「み○○ん」だとわかりにくいし、thinkをt---kだとわからない。
thinkがtinhkなら良いが、tinnkとか、tinxkだとわかりにくくなる。

c.  速読の1日講座でも単語の並び替えがでてくる。半日の練習で完全なアナグラム(文字の順番を入れ替えたもの)が、参加者全員普通の速度に近い速度で読めるようになる。多分、ほんのちょっとした能力開放でできるのだろう。

たとえば、スンラサグ、インペンサ、きぷんせう とか。
でも練習をサボると分からなくなる。

ちなみに速読については、以下に書いた。
2011年12月31日土曜日: 速読の勧め - Super Reading
d.  「みなさん」を「みさなん」として、文字でみるとなにもおかしくないが、耳で聞くと全く違って聞こえる。

e.  速読は、入力速度を固まりにするために、一音ずつ逐次入力になる音読をやめる練習をする。音として理解させる処理が、目から直接図形で理解できる、読む能力をかなり落としているらしい。そして、これの制限は、c) のように簡単に開放できるらしい。

あるパターンにマッチした候補を引き出す技術をパターンマッチという。仮名漢字変換とか、スマホの候補推定で使う技術である。

人間は、文字を読むときに、最初と最後、およびに、中間の文字は、順序ではなく、出てくる文字の集合が一致するものはなにかという、パターンマッチをやっているのかもしれない。どうして、そうやるのが良いのか、そうなる仕組みは何かを考えるとおもしろそうである。

英語でやってみよう)
英語は、空白で単語が切れているので、実験は簡単である。Perl等で書いた簡単なスクリプトで、上記のルールで文章がスクランブルできる。以下に掲載した。

英語版) perl scriptである。これを動かして標準入力に英文をペーストすれば、先の規則に従った結果が出てくる。プログラムを少しいじれば、いろいろ実験ができる。
/usr/bin/perlがあるMac OS-Xならファイルfoo.plとかにsaveして、chmod +x foo.plとすれば、ターミナル窓でこのまま走る。Linuxでも同じはず。
--
#!/usr/bin/perl
while (<>) {
    if (s/^([^\w]*)//) {
        print $1; # print leading spaces
    }
    while (s/([\w]+)([^\w]*)//) {
        $w = $1; $sp=$2;
        # scrambles inner letters.
        if ($w =~ m/(.)(.{2,})(.)/) {
            # scramble $2 here
            print $1,&scramble($2), $3;
        } else {
            print $w;
        }
        print $sp;
    }
}

sub scramble() {
    my @l= split //, $_[0];
    return $l[1].$l[0] if ($#l < 2);  # reverse two letters
    return join "", sort { rand() <=> 0.5 } @l; # shuffle
}
  --
たとえば、イタリア沖で起きた客船座礁のニュースをいれると..

If it is demtenierd taht the $650 milolin luruxy leinr is too bdlay demaagd and is lttlie mroe tahn fcnay srcap, the orewns -- Ctosa Crieuss and its panret cnpaomy Cavnaril Crseius -- wlil hvae to arbsob the lsos of the sihp.

"Tehy jsut lsoe," siad Jmiae Ktaz, an eqituy aslnyat for Mngiantsorr Inc., an iendnependt itenesvmnt resraech frim. "The sihp is gnoe. Tehy wlil hvae to strat oevr or hvae one lses sihp in taht mraekt."

Taht doimtiranteen has yet to be mdae, but eevn a blil taht big wolud not snik the cnomapy, etxpres siad.
--
となる。固有名詞以外は結構読める。

これを、Stanford大の英語ネイティブのPhD学生たちに読んでもらった。インド出身の女性は、「コレまた、ひどいスペリングだねぇ。」といいつつ、determinationと固有名詞以外はすらすらと読んでくれた。スペルミスに見えるというのは新鮮だった。
テキサス州出身の白人男子学生も、「読めるじゃん」と、すらすら読んでくれた。

原理を説明したら、「日本語でも同ことになるのか。」と不思議がっていた。

スクリプトを、さわればいろいろ実験ができるはず。
Cとかコンパイラ言語に比べると、Perlのパターンマッチや文字列処理はとても強力である。

日本語でもできるかも)
日本語コードをMac等で使われているUTF-8にして、http://bit.ly/zuHLk8 のようにして漢字とカタカナを切り出す。漢字からカナへの変換のKAKASHI -> http://bit.ly/ABvQli に通せば日本語版の変換スクリプトが作れそうに思う。先のリンクのように、KAKASHI perlやRuby interfaceが用意されている。
ひらがなばかりの単語列から文節や助詞が切り出せないが。。ブロック末の助詞の切り出しは簡単そうである。

まとめると)
1. 単語の最初と最後の文字があっていると同じに読める
2. 途中の文字はアナグラムでよい。が、伏せ字や、違う文字集合はだめ
3. 何語でも同じ
4. 速読練習をちょっとすると1の条件もなくなり、完全なアナグラムが普通の速度で読めるようになる
5. 「ようこそ」と「よこうそ」は、文字では同じと見なせるが、耳では全く違う単語に聞こえる。 文字認識系と音声系のマッチングはちがうようである。

エレベータとエベレータも、発音では、かなり違和感がある。こういう間違いをする子供がいるが、文字として単語を記憶しているからかもしれない。

原因は?)
視覚は本質的に並列処理。そこに、読む能力が入ったのだろう。一方、音声言語は逐次処理の聴覚に入ってしまう。
生物は視覚という大変強力な探査手段を獲得してしまったので聴力が進化しなかったのかもしれない。

ただし、盲目の場合には聴覚の発達を妨げる視覚が存在しないので、とんでもない能力の人がいる。http://bit.ly/yUSZEB など。人間の脳の柔軟性には恐れ入る。以下に掘り下げてみた。

2012年1月23日月曜日:障害は天賦の才かもしれない


通常者と違うと無視しないで、障害者の持つ素晴らしい能力を認識すべきだと思う。哀れむだけが、支援ではない。天才といわれる人にも行動がへんな人がいる。それでも社会を回している。単に障害の出方が違うと考えれば、いわゆる障害者への偏見も減るであろう。

英語習得との関連)
子供だと急激に外国語の発音が良くなるのは、文字が入っていないので、音で記憶すること、子供仲間に何度でも修正させられること、などが関係していそうである。

上記の例でも文字を目で読むことで、認知の柔軟性があがるが、精度が落ちていても同じと感じてしまうのだろう、だから発音が改善しないとも考えられる。
良くある日本人の発音間違えも、これに関係しそうである。たとえば、TipとChipは耳で聞けば発音が全く違うが、日本語で両方「チップ」と書くので日本人は音を聞いても、2つが同じ音だと考えて疑わない。SitとShitや、SeaやShe なども、みな同じである。米国人は、そういうカテゴライズをしていないので、この2つがペアになっているとは想像できない。英語版のスペルチェッカーでもこのミスタイプは修正されない。TipをChipと発音してしまうと、日本人のクセを知らない人には通じないと思う。

正確に発音したいのであれば、カナで英単語に、ふりがなを振る習慣を止めた方が良さそうである。ないしは、明治時代に、「What time is it now?」を「ほった、いもいじるな。」としたような感性が欲しい。彼らなら、「Tip」に「てっぷ」などと、仮名をふると期待している。そういえば、かつて米国の日系スーパでみた日本食材にはられた日本語の説明シールに、「マーコーウェィ で加熱してください」とあった。電子レンジは英語で「Micro wave」だが、このカナ振りは秀逸だと思った。

通じないというほどではないが、「work」に入っている、「r」の音に気づかないのも、work等子音で終わる単語に「KU」と母音をつけて発音して、気づかないのも、仮名文字で単語が入っているからかもしれない。「w」を初め日本人の子音の発音はかなり弱いようである。「it」の音も、米語では、「イット」ではなく、「エット」に近いように思う。

日本人の英語発音の問題点はLとRばかりではないと、日本人だが、米国大学の英語教育と言語理論の博士を持つ専門家が言っていた。

そういえば、「warning」を「ワーニング」とするのも間違い。「ウォーニング」である。これも思い込みがあるから耳が閉じてしまっている。英語の発音規則はめちゃくちゃなので、「a」や「o」などはいろいろな音になる。覚えるしか無いかもしれない。

この点、スペイン語とかは素直だし音も日本語に非常に近い。なので、英語からではなく、スペイン語から入るのも良いかもしれない。また、中国語は抑揚は難しいが、文法は大変簡単らしい。活用(Conjugation)がないのである。これから入るのも良いかも。

それでも英語からやりたいのなら、文字として覚えるクセがつかないころにやるのが、耳も発音も良くなると思う。この通説が、今回の実験ですこしだけ裏付けられたように思う。

おわりに)
同じ現象でも、深く解析してみると面白いことが分かりそうである。自分自身で簡単に実験できるのだから。また、もとのケンブリッジ大の論文とかを探してみたい。

さらに、先の障害の話まで飛躍させてもみた。「現場に学べ」と思ったのだが、やりすぎかも。。



blog comments powered by Disqus