如果第 2 和第 3 字段相同，我如何使用排序或其他 bash 命令从所有行中获取 1 行-shell技术脚本

How Can I Use Sort or another bash cmd To Get 1 line from all the lines if 1st 2nd and 3rd Field are The same

我有一个文件名为 file.txt

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

我的目标：从第一个、第二个和第三个 PATH 相同且具有相同文件扩展名的行中仅获取一行。

请注意，每个 PATH 都由正斜杠"/"分隔。例如，在列表的第一行，第一个 PATH 是 abc，第二个 PATH 是 cde，第三个 PATH 是 go。

文件扩展名是 .jpg、.gif、.pdf... 始终位于行尾。

这是我尝试过的

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

我的想法

使用 / 作为分隔符给我每行 4 个字段。使用"-u"对它们进行排序将删除除 1 行之外的所有内容，其中包含唯一的第一、第二和第三个字段/路径。但显然，在这种情况下，我没有考虑 EXTENSION(jpg,pdf,gif)。

我的问题

如果第一个、第二个和第三个字段相同并且具有相同的 EXTENSION 使用"/"作为分隔符将其划分为字段，我需要一种方法来 grep 仅其中一行。我想将它输出到另一个文件，比如 file2.txt.
在 file2.txt 中，如何在每行的扩展名前添加一个单词"KALI"，所以它看起来像 /abc/cde/go/ftg13333KALI.jpg 使用第 1 行作为文件中的示例.txt 以上。

期望的输出

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

第 1,2 行

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

输出：

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

I split by / 与 . 分开，以防目录名称中有 .。

错过了 KALI 部分：

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

输出：

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

另一个awk

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

假定目录名称中不存在 .(通常不一定正确)。

使用 awk:

$cat file.txt



1./abc/cde/go/ftg133333.jpg

2./abc/cde/go/ftg24555.jpg

3./abc/cde/go/ftg133333.gif

4./abt/cte/come/ftg24555.jpg

5./abc/cde/go/ftg133333.jpg

6./abc/cde/go/ftg24555.pdf
sort -u -t '/' -k1 -k2 -k3

/abc/cde/go/ftg133333KALI.jpg 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf$ awk '{                 # using awk

  n=split($0,a,/\\//)          # split by / to get all path components

  m=split(a[n],b,".")          # split last by . to get the extension

}

m>1 && !seen[a[2],a[3],a[4],b[m]]++ {   # if ext exists and is unique with 3 1st dirs

  for(i=2;i<=n;i++)           # loop component parts and print

    printf"/%s%s",a[i],(i==n?ORS:"")

}' file

/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk '{

  n=split($0,a,/\\//)

  m=split(a[n],b,".")

}

m>1&&!seen[a[2],a[3],a[4],b[m]]++ {

  for(i=2;i<n;i++)

    printf"/%s",a[i]

  for(i=1;i<=m;i++)

    printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i]

  print""

}' file

/abc/cde/go/ftg133333KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg24555KALI.pdf$ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file



/abc/cde/go/ftg133333.jpg

/abc/cde/go/ftg133333.gif

/abt/cte/come/ftg24555.jpg

/abc/cde/go/ftg24555.pdf$ awk -F/ '{ split($5, ext,"\\\\.")

      if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0

     }

     END { for (f in files) {

         sub("\\\\.","KALI.", files[f])

         print files[f]

       }}' input.txt 

/abt/cte/come/ftg24555KALI.jpg

/abc/cde/go/ftg133333KALI.gif

/abc/cde/go/ftg24555KALI.pdf

/abc/cde/go/ftg133333KALI.jpg

如果第 2 和第 3 字段相同，我如何使用排序或其他 bash 命令从所有行中获取 1 行

How Can I Use Sort or another bash cmd To Get 1 line from all the lines if 1st 2nd and 3rd Field are The same

相关推荐

Spring部署设置openshift

检查Java中正则表达式中模式的第n次出现

如何让 JTable 停留在已编辑的单元格上

Weblogic 12c 部署

Resteasy Content-Type 默认值

代码不会停止运行，在 Java 中

Out of memory java heap space

Log4j 记录到共享日志文件