Odstranění duplicitních e-mailových adres v *.txt souboru
Chci rozeslat PF (v Maillistu) a v Thunderbirdu mám Osobní kontakty, sezbírané, přičemž ještě ke všemu tam jsou v obojím tytéž ale s jinou počáteční velikostí - zkrátka guláš - xxx@...cz, Xxx@...cz, Ivo@...cz, ivo@...cz
Myslel jsem, že bych oba adresáře vyexportoval, třeba do csv, slepil to v Excelu, setřídil vzestupně a odstranil duplicitní adresy. Tím bych získal kýžený seznam adres.
Vyexportované, slepené, setříděné to mám, ale neumím odstranit ty duplicitní. V mém Excelu 2000 jsem to vůbec nenašel a v Open Office mi tam zůstávají.
Co dělám blbě?
Když jsem to teď psal, napadlo mě, nejdříve to prohnat PSPadem a tam "vše na malá" a neměl bych jen duplicity, ale přímo kvadricity
Příklad pro PowerShell:
Mám soubor seznam.txt
a v PS tyto 2 řádky
Výsledek
To se mi nechce stahovat, instalovat a učit se s tím, avšak třeba mi nic jiného nezbude
Pokud máš Visty nebo 7, tak PS je již součástí. Start -> powershell
Ty vado! Děkuji ti 284x. Mě se to povidlo hned napoprvé (mám win 7)
Ještě tě poprosím o jednu věc. Mám soubor "adresy.txt" a v něm třeba:
aaa@aaa.cz
bbb@aaa.cz
bbb@aaa.cz
ccc@yyy.cz
A aby to úplně odstranilo adresy, které jsou 2x (tam už bylo posláno), čili aby vypadlo
aaa@aaa.cz
ccc@yyy.cz
Není zač. Tohle tak jednoduché nebude a abych se přiznal, tak ani nechápu k čemu by to bylo dobré.
Těch adres je třeba 300 (osobni.txt a sezbirane.txt). a na dejme tomu 100 (osobni.txt) už to bylo rozesláno. Jenže některé jsou v osobni.txt a zároveň v sezbirane.txt. Teď jsem smíchal dohromady a odstranil duplicity, takže jsou všechny pouze 1x.
Mám v plánu toto. Nakopíruji do tohoto (vse.txt) ty osobni.txt a docílím toho, že budu mít 2x ty rozeslané. No a abych z toho vytáhl nerozeslané, tak odstranit úplně, které budou 2x.
Ale možná to udělám v Excelu "růčo". Když se setřídí, mohlo by to být vidět dobře, jelikož budou dvě stejné za sebou.
Jsem ty odeslané vložil do vse.txt 3x, v Excelu se zobrazují 4x za sebou a je to krásně vidět.
Takže, mám dva soubory vse.txt a rozeslane.txt, které jsou již bez duplicit. Pro zjištění neodeslaných provedu tohle
Výsledek
Tohle uděláš v libovolném jazyce, který má třídu a metody pro čtení a zápis souborů - jmenuje se FileSystemObject nebo nějak podobně.
Na druhou stranu na Silvestra bude vzhledem k počtu adres asi fakt lepší a rychlejší metoda "růčo", než ladit jednorázový skript.
pripadne ak mas nejaky linux ci iny unix-like system