freedom-_-qの勉強履歴

メモ書きが主になるかと思います。勉強強制のために一日一記事目指してます。頭良くないので間違いが多々あるかと思います。

PowerShell正規表現での文字列抽出

-match

坊ちゃんのソースファイルからルビを振ってある漢字と読み仮名を抽出する。
-matchでキャプチャした文字列は自動変数$Matchesに格納される。

> cat ".\夏目漱石 坊っちゃん.html" |
>>     % {$_ -match  ".*<rb>(.+)?</rb>.+?<rt>(.+)?</rt>"} |
>>     % {$Matches[2] + "(" + $Matches[1] + ")"} |
>>     sort -Unique

あ(逢)
あいさつ(挨拶)
あいづ(会津)
あが(上)
あかてぬぐい(赤手拭)
あくるひ(翌日)
あた(中)
あて(宛)
ありがと(難有)
あんかん(安閑)
い(云)
い(往)
い(好)
い(出)
いっぱい(一杯)
いなか(田舎)
いなびかり(稲光)
いば(威張)
いまごろ(今頃)
いや(厭)
いや(否)
いんえん(因縁)
う(浮)
うかが(伺)
うた(唄)
うった(訴)
うで(腕)
うま(旨)
えど(江戸)
えら(豪)
えんせい(遠征)
えんぜつ(演舌)
えんりょ(遠慮)
お(居)
お(惜)
おいか(追懸)
おか(可笑)
おこ(起)
おこ(怒)
おさ(抑)
おしもんどう(押問答)
おどさ(威嚇)
おとな(大人)
おどろ(驚)
およ(及)
おりあい(折合)
...

Select-String

坊っちゃんの文字列がある行を表示する。

> cat ".\夏目漱石 坊っちゃん.html" |
>>     sls -Pattern ".*坊っちゃん.*" |
>>     % {$_.ToString() + "`n"}

        <title>夏目漱石 坊っちゃん</title>

        <meta name="DC.Title" content="坊っちゃん" />

<h1 class="title">坊っちゃん</h1>
...