PowerShell正規表現での文字列抽出
-match
坊ちゃんのソースファイルからルビを振ってある漢字と読み仮名を抽出する。
-match
でキャプチャした文字列は自動変数$Matches
に格納される。
> cat ".\夏目漱石 坊っちゃん.html" | >> % {$_ -match ".*<rb>(.+)?</rb>.+?<rt>(.+)?</rt>"} | >> % {$Matches[2] + "(" + $Matches[1] + ")"} | >> sort -Unique あ(逢) あいさつ(挨拶) あいづ(会津) あが(上) あかてぬぐい(赤手拭) あくるひ(翌日) あた(中) あて(宛) ありがと(難有) あんかん(安閑) い(云) い(往) い(好) い(出) いっぱい(一杯) いなか(田舎) いなびかり(稲光) いば(威張) いまごろ(今頃) いや(厭) いや(否) いんえん(因縁) う(浮) うかが(伺) うた(唄) うった(訴) うで(腕) うま(旨) えど(江戸) えら(豪) えんせい(遠征) えんぜつ(演舌) えんりょ(遠慮) お(居) お(惜) おいか(追懸) おか(可笑) おこ(起) おこ(怒) おさ(抑) おしもんどう(押問答) おどさ(威嚇) おとな(大人) おどろ(驚) およ(及) おりあい(折合) ...
Select-String
坊っちゃんの文字列がある行を表示する。
> cat ".\夏目漱石 坊っちゃん.html" | >> sls -Pattern ".*坊っちゃん.*" | >> % {$_.ToString() + "`n"} <title>夏目漱石 坊っちゃん</title> <meta name="DC.Title" content="坊っちゃん" /> <h1 class="title">坊っちゃん</h1> ...