視覚障害者のための
正規表現入門2
【法則:文字の連なり】
文字の連なりはそのまま正規表現です。
たとえば、
わたし
という単語は、そのままで正規表現です。
正規表現としての「わたし」は、全角ひらがな「わ」の次に、全角ひらがな「た」がきて、そのあとに全角ひらがな「し」がくるという法則を表現します。
あたりまえのことのようですが、このことはしっかり理解しておかなければなりません。
正規表現「わたし」は、
わ た し
ワタシ
私
には適合(マッチ)しません。
「わ た し」は文字のあいだに全角空白が入っています。
「ワタシ」はカタカナです。
「私」は漢字です。
いずれも、「わ」の次に「た」、その次に「し」がくるという法則に適合しません。(視覚障害者の場合、各種リーダーは空白や文字の種類を読み上げませんから、注意が必要です。1文字ずつ走査して文字を読み上げさせてください。)
しかし、正規表現「わたし」は、
わたしは、
わたしが、
わたしと、
などに含まれる「わたし」という部分には適合(マッチ)します。
なぜなら正規表現「わたし」は、「わ」の次には「た」がきて、「た」の次には「し」がくる、という約束を定めているものの、「し」の次になにがくるか、まったく定めていません。だから、どんな文字が続いてもいいし、「し」ですべてが終わっていてもいいわけです。
同様に、正規表現「わたし」は、「わ」の前にどんな文字があるか、まったく規定していません。
だから、
あわたし (粟田氏)
いわたしぎかい (磐田市議会)
などにふくまれる「わたし」という部分に適合(マッチ)します。
さらには、母親が子供に向かっていう、
「そのおもちゃを早くわたしなさい!」
の「わたし」という部分にも適合します。
もちろん、
「そのおもちゃを早く渡しなさい!」
ならマッチしません。「渡し」が漢字だからです。
つまり言葉の意味はまったく関係ない。文字の連なり方がすべてだというわけです。
おわかりいただけたでしょうか。
これが正規表現の基本です。
次の項目へ
前の項目へ
正規表現入門の目次ページ
文字主体トップページ
Copyright(C) 2003 Kazuhiro Kito All rights reserved