logo
 ログイン
ユーザ名:

パスワード:


パスワード紛失

新規登録
 メインメニュー
  広 告

■漢和辞典で初!全用例に日本語訳+書き下し文

『全訳 漢辞海』

■難漢字の入力はこれで!
今昔文字鏡

■第3回 正規表現
1.正規表現(regular expression)

 「 [ ] 」や「 | 」や「 () 」などの、特別な意味を持ったメタ文字(メタキャラクタ)を用いて、テキストの文字列の中からパターンを検索する方法で、医学古典研究においてもかなり重宝するテキスト処理方法である。
 例えば、陰陽の虚実について調査したい場合があるとする。その場合、実際に『素問』などでは、陰虚、陽虚、陰實、陽實の他に、陰盛、陽盛などとも記載されている。これらを全て調べなければ、陰陽の虚実について調べたことにはならない。その際、陰虚、陽虚、陽盛、陰盛、陰實、陽實の6つを1つずつ6回かけて調べる手間を、以下のように正規表現を用いれば、1回に省くことができる。

 例)陰虚、陽虚、陰實、陽實、陰盛、陽盛を検索する場合
    [陰陽][虚實盛]

(1)メタ文字(メタキャラクタ)解説
①() パターンをグループ化する
 「 | 」と一緒に用いて、3文字以上の言葉で一部分に同じ文字が使われている場合に用いる。例えば、陽明虚・太陰虚には、虚という共通の一文字があり、この場合
「(陽明|太陰)虚」と記述し、陰か陽に虚という文字が続くことを表す。

  (陽明|太陰|少陽|厥陰)虚

 漢字と漢字の間に「 | 」を入れることで、検索したい語を増やすことができる。

②[] キャラクタクラス
 「 [] 」の中に入力した何れかの一文字に続く文字を検索する。例えば、陰虚・陰實・陰盛を調べる場合「陰[虚實盛]」と入力し、陰陽と虚実盛を調べる場合は「[陰陽][虚實盛]」と入力する。3文字以上の言葉を複数調べる場合は、「(|)」と合わせて用いる。陽明・太陰に虚實盛が続く言葉を拾う場合は、「(陽明|太陰)[虚實盛]」とする。

③^ 行頭
 「^」そのものは行頭を表し、「^」の後ろに文字を入れることで、行頭の文字のみを検索できる。例えば「^故」とすると、行中の故にはヒットせず、行頭の故のみを検索できる。
 また、「 [] 」の中で「^」を用いると否定を表し、陰實・陽實以外の實を調べたいときは、[^陰陽]實とすることで、陰陽に続く實以外の實が検索が可能である。

④$ 行末
 行末を表す。使い方は「^」と同じで、「$」の前に文字を入れる。

⑤. 改行を除く任意の1文字

⑥* 直前のパターンの0回以上の繰り返し

⑦+ 直前のパターンの1回以上の繰り返し

⑧? 直前のパターンが0回または1回現われる

⑨| パターンの論理和
 複数の文字を一度に検索する場合、「 | 」で区切って入力する。

⑩¥ エスケープ文字
 「 [] 」や「 | 」や「 () 」などのメタキャラクタそのものを検索する場合、その文字の直前に\を置く。「.」はそのまま用いると任意の一文字として解釈されるが、「\.」とすることでピリオドとして認識される。


写真1.陰虚、陽虚、陰實、陽實、陰盛、陽盛をまとめて検索

※正規表現を使用する際の注意事項
①メタ文字は必ず半角英数で入力すること
②正規表現のチェックボックスを必ずオンにすること

【参考文献】
1)中尾浩・赤瀬川史郎・宮川進悟『コーパス言語学の技法Ⅰ.テキスト処理入門』夏目書房、2002年

 最新ニュースブロック

 講義録

■第1回 2007年10月
 古典を読む手順

■第2回 2007年11月
 1.語法基礎-主述構造・述賓構造
 2.校勘学基礎-対校・古書錯誤挙例・校勘注記法

■第3回 2007年12月
 1.語法基礎-修飾構造・介賓構造
 2.訓詁学基礎-常用訓詁術語 

■第4回 2008年1月
 1.語法基礎-並列構造・賓語前置
 2.漢字学基礎-漢字の種類と変遷

■第5回 2008年2月
 1.否定文-部分否定と全否定  2.音韻学基礎-音韻構造、假借

■第6回 2008年3月
 1.語法基礎-疑問文
 2.校勘学基礎2-理校・音韻学の知識を用いた句末の校勘
 3.E古文講座-「置換」検索に適したテキストとは


Powered by XOOPS 2.0 © 2001-2003 The XOOPS Project
成鍼堂治療院